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Business Intelligence A Managerial Approach second Edition 


本 书 是 电子 商务 领域 著名 学 者 Turban 教 授 的 又 一 力作 。 全 书 便 重 于 商 ZE 
的 商务 分 析 。 书 中 不 仅 介 绍 了 传统 的 商务 智能 基本 理论 和 应 用 ， 还 介绍 了 当前 
新 趋势 ， 如 文本 挖掘、Web 挖 掘 、 社 交 网 络 和 云 计 算 等 。 

本 书 既 可 作为 商务 智能 课程 的 教材 ， 也 可 作为 管理 信息 系统 导论 或 商务 战略 的 教材 ， 同 时 还 可 以 作 
为 MBA 技 术 管理 课程 的 补充 读物 。 


本 书 特 色 
© 管理 导向 : 本 书 主要 从 管理 视角 详细 介绍 商务 智能 的 应 用 和 实施 ， 同 时 也 非常 重视 商务 智能 技术 层 
面 的 应 用 ， 介 绍 了 数据 仓库 、 数 据 挖掘 、 数 据 可 视 化 和 人 工 神经 网 络 等 基本 理论 及 其 在 管理 决策 方 


0 为 企业 决策 提供 支持 
智能 涉及 的 新 技术 和 


能 和 
商务 


面 的 应 用 。 
o 真实 案例 : 通过 大 量 全 球 大 公司 、 小 企业 、 政 府 机 构 和 非 营利 组 织 的 真实 案例 来 生动 形象 地 阐述 相 
关 概念 和 理论 。 


o 集成 系统 : 本 书 强调 那些 支持 企业 和 企业 众多 用 户 的 系统 ， 而 不 是 孤立 的 基于 互联 网 的 商务 智能 系统 。 
@ 热点 研究 : 无 线 射频 识别 、 云 计算 、 社 交 网 络 、Web 2.0、 虚 拟 世 界 等 ， 本 书 分 别 从 理论 和 应 用 角度 
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对 它们 进行 了 阐述 
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本 书 主要 介绍 商务 智能 、 知 识 管理 、 数 据 挖掘 和 其 他 智能 系统 的 基础 和 应 用 知识 ， 并 通 
过 例子 、 产 品 、 服 务 和 练习 ， 以 及 基于 网 络 的 问题 讨论 扩展 了 读者 对 网 络 世界 的 理解 。 第 2 
版 的 改进 主要 集中 在 3 个 领域 : 数据 挖掘 、 文 本 挖 气 和 Web 挖掘 、 实 施 和 新 技术 。 

本 书 可 以 作为 商务 智能 课程 的 教材 ， 也 可 以 作为 管理 信息 系统 简介 或 者 商务 战略 的 教材 ， 
还 可 以 作为 MBA 技术 管理 课程 的 补充 读物 ， 或 者 注重 管理 视角 的 管理 科学 和 管理 信息 系统 项 
目的 教材 。 

Authorized translation from the English language edition, entitled BUSINESS INTELLIGENCE, 
2E, 9780136100669 by Efraim Turban, Ramesh Sharda, Dursun Delen, David King, published by 
Pearson Education, Inc. , publishing as Prentice Hall, Copyright © 2011. 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 各 
个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈 
出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 的 
许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ,不 仅 学 划 了 研究 的 
范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 
减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 益 迫 
切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举 
足 轻 重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 发 展 的 几 十 
年 间 积淀 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 
我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真 正 的 世界 一 流 大 学 
的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 将 工 
作 重 点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson ，MecGCraw- Hill， 
Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 他 们 
现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. Kernighan, Dennis 
Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, William 
Stallings, Donald E. Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 
“计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 
套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 里 力 训 助 ， 国 内 的 专家 不 仅 提 供 了 中 肯 
的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 
的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,/ “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品 
种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 其 影印 版 
“经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 书 
有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 
育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ,我 们 的 目标 是 尽善尽美 ， 而 反馈 
的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建 
议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 
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商务 智能 是 一 门 新 兴 的 边缘 学 科 ， 近 年 来 引起 了 学 术 界 和 产业 界 的 广泛 关注 。 商 务 智能 是 
企业 利用 现代 信息 技术 收集 、 管 理 和 分 析 结 构 化 和 非 结 构 化 的 商务 数据 和 信息 ,创造 和 累计 商 
务 知识 和 见解 ， 改 善 商务 决策 水 平 ， 采取 有 效 的 商务 行动 ， 完 善 各 种 商务 流程 ， 提 升 各 方面 商务 
绩效 ， 增 强 综合 竞争 力 的 智慧 和 能 力 。 

商务 智能 的 出 现 是 一 个 渐进 、 复 杂 的 演进 过 程 ， 而 且 仍 处 在 发 展 中 。20 世纪 90 年 代 后 期 ， 
商务 智能 出 现 了 突飞猛进 的 发 展 ， 越 来 越 多 的 企业 提出 了 他 们 对 商务 智能 的 需求 ， 把 商务 智能 
作为 帮助 企业 达到 经 营 目标 的 一 种 有 效 手 段 。 计 算 机 界 很 多 著名 公司 已 经 认识 到 商务 智能 巨大 
的 发 展 潜力 ， 纷 纷 加 入 到 商务 智能 研究 和 软件 开发 的 行列 。 商 务 智能 技术 已 从 决策 支持 系统 开 
始 ， 经 历 了 数据 仓库 、 联 机 分 析 、 数 据 挖掘 的 发 展 ， 最 后 到 达 了 可 视 化 信息 技术 阶段 。2010 年 ， 
从 全 球 范围 来 看 ， 商 务 智能 领域 并 购 不 断 ， 商 务 智 能 市 场 已 经 超过 ERP 和 CRM 市 场 成 为 最 具 增 
长 潜力 的 领域 。 从 中 国 市 场 来 看 ， 商 务 智能 已 经 度 过 了 一 个 从 知 到 行 ， 从 概念 到 实践 的 阶段 。 当 
前 金融 业 、 电 信 业 、 零 售 业 、 服 务 业 都 在 广泛 地 应 用 各 种 类 型 的 商业 智能 工具 ， 体 验 到 了 数据 分 
析 、 报 告 、 挖 掘 的 力量 ， 在 经 营 分 析 、 客 户 选择 、 绩 效 管 理 、 运 行 预警 方面 得 到 很 大 的 帮助 。 

本 书 作者 是 具有 多 年 在 IT 相关 领域 的 学 术 界 和 产业 界 工作 的 博士 和 专家 ， 不仅 承担 了 很 多 相关 领 
域 研究 项 目 ， 在 国际 学 术 一 流 期 刊 发 表 了 大 量 的 学 术 论文 ， 而 且 具 有 在 跨国 公司 从 事 咨 询 工作 的 经 验 ， 
因此 可 以 从 全 方位 角度 向 读者 介绍 商务 智能 的 技术 ， 展 现 如 何 从 管理 的 视角 去 理解 商务 智能 。 

正如 本 书 作 者 所 言 ， 本 书 可 作为 商务 智能 课程 的 教材 ， 也 可 作为 管理 信息 系统 简介 或 商务 
战略 的 教材 ， 同 时 还 可 以 作为 MBA 技术 管理 课程 的 补充 读物 ， 或 者 是 注重 管理 视角 的 管理 科学 
和 管理 信息 系统 项 目的 教材 。 另 一 个 目标 是 向 实践 管理 者 提供 商务 智能 、 知 识 管理 、 数 据 控 掘 和 
其 他 智能 系统 的 基础 和 应 用 。 

本 书 第 2 版 较 第 1 版 有 了 很 大 的 改动 ， 内 容 更 加 丰富 、 形 式 更 加 新 颖 、 资 料 更 加 全 面 ， 同 时 
配 有 生动 及 时 的 网 站 ， 相 信 可 以 满足 广大 读者 的 要 求 。 

本 书 第 2 版 包括 6 章 。 第 1 章 和 第 6 章 ， 目 录 、 前 言 和 术语 ， 由 北京 交通 大 学 秦 秋 者 博士 、 
副教授 负责 翻译 ; 第 2 章 、 第 3 章 和 第 5 章 由 北京 交通 大 学 姚 家 奕 副教授 负责 翻译 ; 第 4 章 由 北 
京 交 通 大 学 王 英 老师 负责 翻译 。 全 书 的 译文 由 秦 秋 者 负责 统一 定稿 。 

感谢 机 械 工 业 出 版 社 的 编辑 们 ， 是 他 们 的 远见 使 得 本 书 能 够 尽快 与 读者 见面 。 

需要 特别 指出 的 是 ，2010 年 我 接手 了 本 书 的 翻译 工作 。 当 时 正 值 我 将 以 访问 学 者 身份 前 往 
美国 亚利桑那 大 学 ELLER 商学 院 管理 信息 系统 系 人 工 智能 实验 室 (AI LAB) 访 学 交流 之 际 。 通 
过 这 一 年 的 访 学 过 程 ， 我 更 好 地 理解 了 数据 挖掘 和 商务 智能 ， 对 翻译 本 教材 具有 很 大 的 帮助 。 特 
别 是 Chen Hsinchun 教授 的 AI LAB 实验 室 研究 课题 和 他 教授 的 “数据 挖掘 ”课程 资料 ，Sudan 
Ram 教授 的 “商务 智能 ”课程 ，Paulo Goes 教授 的 “商务 智能 中 的 数据 挖掘 ”课程 ，Zhu Zhang 
助理 教授 的 “数据 挖掘 与 网 络 控制 ”课程 ， 对 我 深入 了 解数 据 挖掘 和 商务 智能 提供 了 很 大 的 帮 
助 ， 在 此 表示 诚挚 的 感谢 。 

由 于 译 者 水 平 有 限 ， 译 文中 的 错误 和 不 当 之 处 ， 敬 请 读者 朋友 指正 。 意 见 请 发 往 qlqin@ 
sohu. com， 我 们 将 不 胜 感 激 。 

希望 读者 喜欢 这 本 译 著 , 希望 这 本 译 著 有 助 于 进一步 推动 我 国 的 商务 智能 研究 与 应 用 的 深 
入 开展 。 


秦 秋 痢 
2011 年 11 月 于 美国 亚利桑那 大 学 人 工 智 能 实验 室 AI LAB 
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Business Intelligence; A Managerial Approach, 2E 


基于 计算 机 的 决策 支持 的 应 用 越 来 越 广泛 。 许 多 公司 ， 比 如 IBM, Oracle 和 Microsoft 正在 建 
立 基 于 分 析 的 组 织 单元 ， 以 便 商业 运作 更 加 灵活 有 效 。 越 来 越 多 的 懂 计 算 机 和 网 络 的 决策 者 使 
用 更 多 的 计算 机 工具 来 支持 他 们 的 工作 。 同 时 ， 消 费 者 和 组 织 在 交互 的 过 程 中 产生 着 不 计 其 数 
的 数据 。 这 些 数 据 存 储 能 够 用 来 开发 和 提升 适当 的 产品 、 服 务 ， 促 进 消费 者 消费 ， 优 化 组 织 内 的 
运作 。 

本 书 的 目的 就 是 向 读者 介绍 商务 智能 技术 。 在 一 些 圈子 里 ， 商 务 智 能 (Business Intelligence, 
BI) 也 称 为 商务 分 析 (business analytic) 。 我 们 不 加 区 别 地 使 用 这 两 个 术语 。 本 书 介 绍 了 这 些 系 
统 构建 和 使 用 中 的 基本 技术 和 方式 。 

第 2 版 的 改进 主要 集中 在 3 个 领域 : 数据 挖掘 、 文 本 和 Web 挖掘 、 实 施 和 新 技术 。 这 一 版 
尽管 有 这 么 多 的 变化 ， 但 仍然 保留 了 综合 性 和 用 户 友好 性 ， 这 使 得 本 书 在 市 场 上 占据 领先 地 位 ， 
最 终 呈 现 给 读者 最 准确 及 时 的 知识 ， 而 这 在 别 的 教科 书 上 是 没有 的 。 


第 2 版 更 新 了 什么 

第 2 版 增加 了 许多 最 新 的 内 容 ， 删 掉 了 过 时 的 内 容 。 以 下 是 几 个 重要 的 变化 : 

e 全 部 修订 或 新 增 的 章节 。 第 5 章 (彻底 进行 了 修订 ) 以 全 面 但 易 懂 的 方式 研究 了 2 个 最 
流行 的 商业 分 析 工 具 。 这 章 提供 了 很 多 应 用 案例 ， 使 得 主题 有 趣 并 且 吸 引 读 者 。 第 6 章 
是 新 增加 的 ， 这 章 调查 了 几 个 新 的 现象 ， 这 些 现象 正在 或 有 可 能 改变 商务 技术 和 实践 ， 
它们 分 别 是 : 无 线 射 频 识别 (Radio Frequency Identification, RFID), RH., EX WiK 
Web 2.0、 虚 拟 世界 等 。 商 务 智能 实施 的 重要 主题 和 面向 需求 的 计算 战略 也 增加 到 了 这 
一 章 中 ， 同 时 第 6 章 还 更 新 了 计算 机 化 的 决策 支持 对 个 人 、 组 织 和 社会 的 影响 。 

。 流线型 覆盖 。 我 们 通过 删除 在 线 的 格式 文本 来 缩短 教材 篇 幅 ， 但 是 我 们 仍然 保留 了 大 量 
通用 的 内 容 。 我 们 通过 网 站 及 时 提供 最 新 的 内 容 和 一 些 链接 。 另 外 ， 减 少 了 每 一 章 参考 
文献 的 数量 。 而 且 ， 我 们 对 第 1 章 中 商务 智能 的 介绍 性 的 报道 和 数据 挖掘 实现 了 流水 线 
式 ， 这 种 综述 形式 能 够 让 学 生 在 学 期 开始 提前 准备 如 何以 一 个 学 术 项 目的 方式 进行 学 习 
和 思考 (指导 老师 可 能 也 需要 )。 我 们 还 删除 了 本 章 网 上 已 有 的 内 容 并 且 合 并 了 一 些 
内 容 。 

。 新 的 作者 团队 。 与 上 一 版 相 比 ， 本 书 增加 了 一 名 作者 ， 还 有 一 名 作者 的 角色 扩充 了 。 前 
一 版 作者 (Turban, Sharda, Aronson 和 King) 构建 了 很 好 的 内 容 ，Ramesh Sharda 和 
Dursun Delen 主要 修订 这 一 版 。Ramesh 和 Dursun 主要 工作 在 决策 支持 系统 和 数据 挖掘 领 
域 ， 他 们 具有 相关 的 行业 和 研究 经 验 。 

。 新 的 约 灯 片 图 形 。 尽 管 印刷 版 本 中 图 形 保留 了 以 前 版 本 中 的 内 容 ， 但 是 新 内 容 中 增加 了 
新 的 图 ， 所 有 的 图 都 重新 画 成 了 彩色 ， 并 且 可 以 从 在 线 图 库 中 获得 ， 用 于 幻灯 片 演示 。 

。 更 新 及 时 的 网 站 。 本 书 的 使 用 者 能 够 进入 网 站 ， 网 站 包括 与 本 书 主题 相关 的 新 故事 、 软 

件 、 学 习 指 南 ， 甚 至 还 包括 YouTube 的 视频 。 

重新 修订 和 更 新 的 内 容 。 所 有 的 章节 都 有 新 的 开篇 场景 和 结束 案例 ， 这 些 都 是 基于 最 近 
的 真实 应 用 故事 和 事件 。 除 此 之 外 ， 更 新 了 贯穿 本 书 的 应 用 案例 ， 包 括 最 近 的 一 个 特殊 
技术 /模型 应 用 的 例子 。 新 的 网 站 链接 也 增加 到 本 书 中 。 本 书 删 掉 了 许多 旧 产 品 的 链接 和 
参考 文献 。 最 后 ， 许 多 章节 都 有 新 的 练习 、 网 络 练习 、 讨 论题 等 。 
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第 2 版 其 他 特殊 改动 归纳 如 下 : 

。 第 1 章 包括 新 的 开篇 故事 和 结尾 案例 ， 以 及 整 章 内 流线型 的 材料 。 

。 第 2 章 包括 数据 仓库 的 新 材料 ， 包 括 大 量 的 在 线 分 析 处 理 ( Online Analytical Process- 
ing, OLAP) 和 多 维 数据 模型 。 一 款 改编 的 可 亲自 动手 的 MicroStrategy 软件 演示 也 加 入 了 
本 书 。 除 此 之 外 ， 我 们 还 将 架构 和 实施 问题 部 分 实现 了 流水 线 型 结构 。 最 后 ， 还 加 入 了 
数据 仓库 的 未 来 部 分 。 

。 第 3 章 是 以 上 一 版 多 个 章节 为 基础 合并 而 成 的 。 除 了 更 新 的 开篇 场景 、 结 束 案例 以 及 
整 篇 的 讨论 这 种 流水 线 型 结构 ， 还 包括 了 新 的 关键 绩效 指标 (Key Performance Indicator, 
KPI) 和 运营 指标 、 精 益 六 西格玛 、 数 据 可 视 化 、 业 务 流程 管理 架构 等 部 分 。 

。 第 4 章 采用 体现 标准 的 数据 挖掘 项 目 流程 的 方法 ， 全 面 次 度 地 展现 数据 挖掘 的 内 容 。 
与 上 一 版 相应 的 章节 相 比 ， 本 章 重新 撰写 ， 使 得 读者 更 加 容易 使 用 和 获得 数据 挖掘 的 信 
息 。 特 别 是 延伸 了 文本 和 Web 挖掘 (有 专门 的 章节 ) ， 更 重要 的 是 扩展 了 数据 挖掘 的 方 
法 和 方法 论 。 本 章 还 详细 地 描述 了 人 工 神经 网 络 和 它们 在 管理 决策 方面 的 使 用 ， 重 点 详 
细 地 描述 了 最 流行 的 人 工 神经 网 络 架 构 ， 阐 述 了 它们 在 不 同 决策 类 型 问题 中 使 用 的 差 
别 。 这 一 章 还 加 入 了 人 工 神经 网 络 模 型 灵敏 度 分 析 的 解释 。 

。 第 5 章 和 第 6 章 是 新 增 章节 。 

我 们 保留 了 许多 上 一 版 不 错 的 内 容 并 更 新 了 相关 的 内 容 ， 这 些 内 容 概 括 如 下 : 

e Teradata 大 学 网 络 (TUN) 的 连接 。 许 多 章节 都 包括 TUN 的 连接 (teradatauniversi- 

tynetwork. com), Teradata 网 站 ( Teradata 学 生 网 站 TSN, teradatastudent: network. 

com) 主要 包括 了 学 生 的 作业 。 登 录 TSN 网 站 允许 学 生 阅 读 案 例 ， 观 看 网 站 研讨 会 ， 回 

答 问 题 ， 查 询 资料 等 。 

减少 穿插 的 小 板块 ， 组 织 结构 更 合理 。 小 板块 减少 了 50% 以 上 ， 重要 素材 合并 到 正文 

中 。 现 在 只 有 两 个 小 板块 : 应 用 案例 和 技术 前 沿 。 

e 软件 支持 。TUN 网 站 提供 了 免费 的 软件 支持 。 除 此 之 外 ， 网 站 还 提供 了 软件 的 练习 ， 我 
们 的 网 站 还 包括 了 附加 的 一 些 链 接 。 


目标 和 和 覆盖 范围 

目前 组 织 能 够 很 容易 地 使 用 内 部 网 和 因特网 发 布 高 价值 的 性 能 分 析 应 用 给 全 球 的 决策 者 。 
公司 定期 地 开发 分 布 式 系 统 、 内 部 网 和 外 部 网 ， 用 来 方便 地 访问 存储 在 许多 地 点 的 协作 和 通信 
数据 。 各 种 信息 系统 应 用 彼此 集成 起 来 ， 或 者 与 其 他 基于 网 络 的 系统 集成 起 来 ， 有 些 集成 甚至 超 
越 了 组 织 的 边界 。 由 于 管理 者 手头 有 很 多 精确 的 信息 ， 所 以 他 们 能 够 更 好 地 决策 。 

今天 的 决策 支持 工具 使 用 网 络 来 进行 分 析 ， 它 们 使 用 图 形 用 户 界 面 ， 使 得 决策 者 可 以 利用 
熟悉 的 网 络 浏览 器 更 加 灵活 、 有 效 和 容易 地 观看 和 处 理 数 据 和 模型 。 企 业 信息 、 知 识 和 其 他 高 级 
系统 的 这 种 容易 使 用 和 阅读 能 力 移植 进 了 个 人 电脑 和 个 人 数字 助理 。 管 理 者 们 通过 使 用 一 系列 
的 无 线 掌 上 设备 ， 包 括 移动 电话 和 个 人 数字 助理 ， 通 过 电脑 和 网 络 进行 沟通 。 这 些 设备 使 得 管理 
者 能 够 访问 重要 的 信息 和 有 用 的 工具 ， 进 行 沟通 和 合作 。 数 据 仓 库 及 其 分 析 工 具 (例如 在 线 分 
析 处 理 、 数 据 挖掘 ) 极 大 地 提高 了 穿 过 组 织 边 界 的 信息 接 入 和 分 析 。 

本 书 可 作为 商务 智能 课程 的 教材 ， 也 可 作为 管理 信息 系统 简介 或 商务 战略 的 教材 ， 同 时 还 
可 以 作为 MBA 技术 管理 课程 的 补充 读物 ， 或 者 是 注重 管理 视角 的 管理 科学 和 管理 信息 系统 项 目 
的 教材 。 本 书 的 另 一 个 目标 是 给 实践 管理 者 提供 商务 智能 、 知 识 管理 、 数 据 挖掘 和 其 他 智能 系统 
的 基础 和 应 用 。 

这 次 修订 版 本 的 主题 是 商务 智能 和 为 企业 决策 提供 支持 的 商务 分 析 。 除 了 传统 的 商务 智能 
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应 用 外 ， 这 一 版 全 篇 通过 例子 、 产 品 、 服 务 和 练习 ， 以 及 基于 网 络 的 问题 讨论 扩展 了 读者 对 网 络 
世界 的 理解 。 本 书 突出 网 络 智能 和 网 络 分 析 ， 这 些 和 电子 商务 及 其 他 应 用 的 商务 智能 和 商务 分 
析 是 平行 的 。 本 书 有 网 站 支持 (pearsonhighered. com/turban), ， 网 站 上 提供 了 许多 在 线 的 文 
件 。 通 过 特殊 的 网 站 部 分 还 可 以 链接 到 许多 软件 指导 书 。 


特点 


面向 管理 视角 ”商务 智能 能 够 从 两 个 视角 来 看 : 技术 和 管理 。 本 书 主 要 从 第 二 个 视角 来 
看 。 本 书包 括 许多 关于 商务 智能 的 应 用 和 实施 的 展示 。 然 而 ,我 们 承认 技术 的 重要 性 ， 
因此 每 1 章 恰当 地 表述 了 技术 概要 。 在 学 习 指南 中 以 博客 链接 到 本 书 网 站 的 形式 提供 一 
些 技术 细节 。 

面向 真实 世界 ”大量 有 效 的 有 关 全 世界 大 公司 、 小 企业 、 政 府 、 非 营利 组 织 的 案例 使 得 
概念 更 加 生动 。 这 些 案例 给 学 生 展 示 了 商务 智能 的 能 力 、 成 本 和 使 用 它 的 理由 ， 以 及 现 
实 中 公司 在 内 部 使 用 商务 智能 的 创新 方法 。 

Teradata 大 学 网 络 (TUN) 连接 TUN 是 由 Teradata 赞助 的 一 个 免费 学 习 平台 ， 是 NCR 的 
一 个 分 支 ， 其 目标 是 帮助 职员 与 其 他 商务 智能 领域 的 同仁 之 间 进 行 学 习 、 教 学 、 沟 通 和 合 
作 。 几 百 所 大 学 和 学 院 都 参与 和 使 用 TUN。Teradata 也 支持 学 生平 台 (teradatastudentnet- 
work. com) ， 上 面包 含 了 大 量 学 习 资 源 ， 例 如 案例 、 网 络 研讨 会 、 学 习 指 南 、 练 习 和 资源 
的 链接 。 本 书 与 TUN 主要 通过 给 学 生 提供 使 用 平台 来 完成 各 章 不 同类 型 的 作业 相 链 接 。 
大 多 是 当前 的 主题 有 证 据 显 示 ， 本 书 提 供 的 内 容 大 多 数 是 在 2008 年 和 2009 年 被 引证 
的 有 关 商 务 智能 的 主题 。 

集成 系统 ” 相 比 其 他 教材 重视 孤立 的 基于 互联 网 的 商务 智能 系统 ， 本 书 强 调 那些 支持 企 
业 和 企业 众多 用 户 的 系统 。 

全 球 视角 ”全球 竞 争 、 合 作 伙 伴 、 贸 易 的 重要 性 正在 快速 地 增长 ， 因 此 ， 全书 提供 的 都 
是 国际 案例 。 

ERAR 可 以 在 线 获取 本 书 的 附加 材料 。 包 括 家 庭 作业 的 数据 文件 、 许 多 报告 、 视 频 
和 软件 的 链接 。 

用 户 友 好 性 ”本 书 不 仅 覆 盖 所 有 主要 的 商务 智能 主题 ， 而 且 清晰 、 简 单 、 结 构 组 织 合理 。 
它 提供 了 所 有 基本 定义 和 逻辑 概念 支持 。 进 一 步 说 ， 本 书 易 履 ， 并且 充满 有 趣 的 真实 世 
界 案例 ， 能 激发 读者 的 阅读 兴趣 。 在 每 节 结 束 还 提供 相关 复习 题 ， 以 便 读者 复习 和 消化 
新 的 材料 。 


补充 包 : Pearsonhighered. com/Turban 


一 个 全 面 灵活 的 基于 技术 支持 的 补充 包 可 以 用 来 提高 教学 和 学 习 经 验 。 下 面 的 教师 指导 补 
充 材料 会 放 在 本 书 网 站 pearsonhighered. com/turban 上 ， 采 用 本 书 作 为 教材 的 教师 需要 联系 所 在 地 
的 培 生 代表 处 ， 申 请 下 载 权 限 : 
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商务 智能 简介 
学 习 目标 
理解 今天 动荡 的 商务 环境 ， 描 述 组 织 机 构 如 何在 这 样 的 环境 解决 问题 和 探索 商机 ) 中 
生存 并 且 取得 成 就 。 


国 理解 管理 决策 中 对 计算 机 化 支持 的 需要 。 
B 描述 商务 智能 的 方法 论 和 相关 概念 ， 并 将 它们 与 决策 支持 系统 相 联系 。 
国 理解 商务 智能 实施 中 存在 的 主要 问题 。 


当今 的 商务 环境 在 不 断 地 改变 并 且 变 得 越 来 越 复杂 。 组 织 、 个 人 、 公 众 都 面临 着 巨大 的 
压力 ， 这 些 压 力 迫 使 他 们 要 对 变化 的 环境 做 出 快速 的 反应 ， 同 时 还 要 求 他 们 在 运作 方法 上 有 
创新 精神 。 这 就 需要 组 织 机 构 灵 活 并 且 频 繁 快速 地 在 战略 层 、 战 术 层 、 操 作 层 做 出 决策 。 有 
些 决 策 是 非常 复杂 的 ， 做 出 这 样 的 决策 需要 大 量 相关 的 数据 、 信 息 和 知识 。 在 需要 决策 的 杠 
架 中 ， 处 理 这 些 数 据 就 需要 企业 能 够 做 出 非常 迅速 、 实 时 的 行动 ， 这 通常 需要 某 些 计算 机 化 
的 支持 。 

本 书 讲述 了 如 何 将 商务 智能 作为 一 种 计算 机 化 的 支持 应 用 到 管理 决策 中 。 在 重点 讲述 针对 
决策 支持 的 商务 智能 的 理论 和 概念 基础 的 同时 ， 也 涉及 有 效 的 商务 工具 和 技术 。 本 章 一 方面 详 
细 介 绍 了 这 些 内 容 ， 另 一 方面 也 对 本 书 的 内 容 进 行 了 概述 。 


开篇 场景 : Norfolk Southern 利用 商务 智能 进行 决策 支持 获取 成 功 


在 美国 有 4 个 大 型 的 铁路 货运 公司 ，Norfolk Southern (以 下 简称 为 NS) 是 其 中 之 一 。 每 天 ， 
公司 在 东部 的 22 个 州 、 哥 伦比 亚 区 、 安 大 略 、 加 拿 大 有 大 约 500 辆 货运 火车 在 运行 ， 运 行 的 总 
里 程 有 21 000 英里 。 公 司 有 超过 260 亿 的 固定 资产 和 超过 30 000 名 员工 。 

在 一 个 多 世纪 的 时 间 里 ， 铁 路 行业 一 直 是 一 个 受到 严格 管制 的 行业 。NS 及 其 前 身 主要 是 依 
靠 管理 自己 的 成 本 来 盈利 的 。 管 理 者 将 主要 的 精力 放 在 了 对 现 有 轨道 车 辆 的 优化 利用 上 ， 依 靠 
公司 的 固定 资产 来 获得 更 多 的 成 果 。 在 1980 年 ， 行 业 开 始 部 分 放松 管制 ， 这 就 为 公司 之 间 合 并 
提供 了 机 会 。 与 此 同时 ， 公 司 可 以 基于 自己 的 服务 来 收费 并 和 顾客 订立 合同 。 准 时 送 货 成 了 影响 
这 个 行业 的 重要 因素 。 

在 一 段 时 间 里 ，NS 公司 适应 业界 变化 的 对 策 是 变 成 了 一 个 “预定 铁路 " 。 这 就 意味 着 公司 
必须 要 制定 一 套 固定 的 火车 运行 时 刻 表 ， 为 行驶 在 火车 与 码头 之 间 的 汽车 制定 一 套 固定 节点 。 
在 这 种 情况 下 ， 管 理 者 能 够 预测 什么 时 候 他 们 可 以 将 货物 送 达 客户 。 

NS 一 直 用 多 种 复杂 的 系统 来 经 营 自 己 的 业务 。 然 而 ， 变 成 一 个 “预定 铁路 ”就 需要 一 个 新 
的 系统 首先 可 以 应 用 统计 模型 来 决定 最 好 的 路 线 和 连接 点 以 使 火车 运输 的 表现 最 优 。 然 后 这 个 
系统 还 要 应 用 模型 来 制定 可 以 指导 铁路 运行 的 计划 。 这 些 新 系统 叫做 TOP (Thoroughbred Operat- 
ing Plan), TOP 是 在 2002 年 开始 部 署 的 。 

NS 意识 到 仅 用 TOP 系统 来 管理 铁路 的 运行 是 不 够 的 ， 公 司 还 要 监测 和 衡量 TOP 计划 的 表 
现 。NS 的 众多 系统 产生 了 成 千 上 万 的 关于 货物 的 记录 、 轨 道 车 的 信息 、 火 车 全 球 定 位 系统 
(Global Positioning System, GPS) 的 信息 、 火 车 燃料 的 信息 、 收 入 的 信息 、 机 组 人 员 管 理 和 历史 
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跟踪 记录 信息 。 不 幸 的 是 ， 公 司 在 开发 利用 这 些 信 息 的 同时 还 要 冒 着 对 系统 的 运行 产生 重大 影 
响 的 风险 。 

早 在 1995 年 ， 公 司 投资 引进 了 一 个 1TB 的 Teradata 数据 仓库 ， 这 个 数据 仓库 是 关于 历史 数 
据 的 仓库 ? 。 数 据 仓库 是 按照 以 下 方式 来 组 织 的 : 一 方面 数据 是 很 容易 得 到 的 (使 用 网 络 浏览 
器 ) ， 另 一 方面 数据 可 以 用 来 做 决策 支持 。 数 据 仓 库 的 数据 来 自 公 司 的 运行 系统 〈 也 就 是 原始 系 
统 ) ， 并 且 一 旦 这 些 数据 从 原始 系统 移 到 数据 库 中 ， 用 户 就 可 以 得 到 数据 并 且 使 用 这 些 数 据 而 不 
必 冒 着 影响 系统 运行 的 风险 。 

在 2002 年 ， 数 据 仓库 变 成 了 TOP 系统 的 关键 组 成 部 分 。NS 建立 了 一 个 TOP 仪表 盘 应 用 ， 
可 将 数据 从 数据 仓库 中 抽出 ， 用 图 描绘 出 与 运输 计划 不 符 的 性 能 ， 包 括 火车 性 能 和 连接 点 性 
能 。 这 个 应 用 使 用 可 视 化 技术 使 区 域 经 理 能 够 更 轻松 地 解释 如 此 大 量 的 数据 〈 如 每 周 这 里 有 
160 000 个 连接 点 遍布 整个 网 络 ) 。 自 从 此 应 用 实施 以 来 ， 消 失 的 连接 点 的 数量 已 经 减少 了 近 
60% 。 并 且 在 过 去 的 5 年 中 ， 轨 道 车 的 运转 周期 已 经 减少 了 一 整 天 ， 这 意味 着 节省 了 数 百 万 
的 资金 。 

NS 拥有 一 套 企 业 数据 仓库 (Enterprise Data Warehouse，EDW)， 这 就 意味 着 一 旦 数据 被 放 
到 数据 仓库 中 ， 那 么 整个 公司 都 可 以 得 到 数据 ， 而 不 仅仅 是 对 某 个 应 用 。 虽 然 火车 和 连接 点 
的 性 能 数据 是 供 TOP 使 用 的 ， 但 公司 可 以 将 这 些 数据 用 于 其 他 类 型 的 应 用 。 例 如 ， 市 场 部 门 
开发 了 一 个 叫做 AccessNS 的 应 用 程序 ， 这 个 应 用 程序 是 为 NS 的 那些 想 要 进入 NS 广泛 的 运输 
网 络 的 客户 建立 的 。 这 些 客户 想 要 知道 运送 他 们 货物 的 船只 现在 在 哪儿 ， 有 时 客户 还 想 要 了 
解 一 些 历史 信息 ， 如 : 我 的 货物 是 从 哪里 来 的 ? 需要 多 长 时 间 到 达 ? 在 运送 的 过 程 中 遇 到 过 
什么 问题 ? 

AccessNS 人 允许 来 自 8 000 多 个 客户 组 织 的 14 500 用 户 随时 访问 系统 ， 获 得 预先 确定 的 关于 他 
们 账户 的 客户 报告 。 用 户 可 以 得 到 时 时 更 新 的 信息 ， 也 可 以 查看 过 去 3 年 的 数据 。AccessNS 拥有 
预警 功能 和 真正 简单 聚合 (Really Simple Syndication, RSS) 的 跟踪 能 力 。 事 实 上 ， 每 天 有 4 500 
个 报告 发 布 给 用 户 。AccessNS 提供 自主 服务 的 特性 ， 使 得 NS 能 够 给 客户 提供 他 们 想 要 的 信息 ， 
并 且 减 少 了 从 事 客户 服务 的 员工 数量 。 事 实 上 ， 如 果 没 有 AccessNS 系统 ， 要 维持 现在 的 客户 报 
告 水 平公 司 至 少 需要 47 人 。 

公司 的 各 个 部 门 ， 从 工程 与 战略 规划 部 到 成 本 与 人 力 资 源 部 都 在 使 用 EDW 系统 。 公 司 内 部 
的 一 个 很 有 意思 的 应 用 程序 是 由 人 力 资 源 部 开发 的 。 最 近 ， 为 了 很 好 地 满足 NS 公司 超过 30 000 
名 员工 的 需要 ， 该 部 门 需要 确定 区 域 办 公 室 所 在 地 。 通 过 将 员工 的 人 口 统计 信息 (如 邮政 编码 ) 
与 原本 用 在 工程 部 的 地 理 数据 整合 后 ， 人 力 资源 部 就 能 够 清楚 地 勾画 出 员工 的 人 口 密 度 可 视 化 
地 图 ， 这 样 就 使 区 域 服 务 办 公 地 点 选取 的 优化 工作 变 得 很 容易 了 。 

现在 ，NS 公司 的 数据 仓库 系统 已 经 发 展 成 一 个 6TB 的 系统 。 该 系统 可 以 管理 公司 巨大 的 铁 
路 和 海运 服务 网 的 海量 信息 。NS 利用 这 套数 据 仓 库 系统 分 析 趋 势 、 制 定 预测 时 间 表 、 存 档 记录 
并 为 顾客 的 自主 服务 提供 便利 。 这 套数 据 库 系统 为 超过 3 000 名 的 员工 和 140 000 个 外 部 客户 和 
利益 相关 者 提供 信息 。 

NS 是 第 一 家 提供 自助 服务 商务 智能 的 铁路 企业 ， 它 的 创新 使 得 其 他 的 铁路 企业 纷纷 效仿 。 
公司 还 是 第 一 家 可 以 为 外 部 客户 提供 大 量 历史 数据 的 公司 。 





© Dashboad 是 一 个 苹果 公司 Mac OS X V10. 4 Tiger 操作 系统 中 的 应 用 程序 ， 用 做 称 为 “widget” 的 小 型 应 用 程序 的 
执行 基础 。 一 一 译 者 注 
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开篇 场景 的 问题 


. 在 NS 公司 ， 信 息 系 统 是 如 何 用 来 支持 决策 的 ? 

. 可 视 化 应 用 可 以 获得 哪 种 类 型 的 信息 ? 

. AccessNS 可 以 提供 哪 种 类 型 的 信息 支持 ? 

.NS 公司 是 如 何 将 数据 仓库 应 用 到 人 力 资源 管理 中 的 ? 

. 同样 的 数据 库 是 否 可 以 应 用 到 商务 智能 和 优化 的 应 用 中 ? 

从 开篇 场景 中 能 够 学 到 什么 

这 个 开篇 场景 表明 : 即使 在 一 个 很 成 熟 的 行业 ， 数 据 仓 库 技术 仍然 可 以 通过 在 公司 的 经 营 
中 获取 更 高 的 效率 的 方式 使 企业 获得 竞争 的 优势 。 确 实 ， 在 许多 情况 下 ， 这 就 是 需要 挖掘 的 前 
沿 。 从 资产 中 获得 更 多 的 利润 需要 公司 对 其 业务 有 及 时 详细 的 理解 ， 同 时 具有 使 用 信息 做 出 更 
好 决策 的 能 力 。 在 本 书 中 可 以 看 到 许多 这 样 的 应 用 案例 。 

可 以 在 Teradata 大 学 网 络 (简称 TUN) 上 获取 更 多 关于 案例 的 辅助 资源 ， 将 在 后 续 的 章节 中 
进行 详细 的 叙述 。 这 些 包 括 其 他 的 论文 和 一 篇 题 为 《Norfolk Southern Uses Teradata Warehouse to 
Support a Scheduled Railroad》 的 播客 。 

来 源 : Contributed by Professors Barbara Wixom( University of Virginia) , Hugh Watson ( University of Ceorgia;2005 ) , and Jeff 
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Hoffer( University of Dayton). 


1.1 变化 的 商务 环境 和 计算 机 化 的 决策 支持 

开篇 场景 说 明了 一 个 全 球 化 的 公司 是 如 何在 一 个 成 熟 而 竞争 激烈 的 市 场 中 取得 成 就 的 。 公 
司 正在 飞速 地 发 展 它们 业务 的 计算 机 化 支持 。 为 了 理解 公司 为 什么 如 此 地 青睐 计算 机 化 支持 ， 
包括 商务 智能 ， 我 们 建立 一 个 商业 压力 -反应 -支持 模型 来 说 明 这 个 问题 ， 如 图 1-1 所 示 。 










组 织 反应 


战略 
合作 伙伴 的 协作 
实时 反应 






企业 环境 因素 


敏捷 
增长 的 生产 力 
新 供应 商 
-a 















图 1-1 商业 压力 -反应 -支持 模型 


商业 压力 -反应 -支持 模型 

商业 压力 -反应 -支持 模型 就 如 其 名 字 一 样 包括 3 个 部 分 : 源 于 今天 商业 环境 的 商业 压力 ， 为 
克服 压力 公司 采取 的 反应 (或 者 是 对 环境 中 有 利 机 会 的 利用 ) ， 对 环境 监测 提供 方便 并 且 能 够 提 
高 组 织 反应 能 力 的 计算 机 化 支持 。 

商业 环境 组 织 今天 面 对 的 环境 变 得 愈加 复杂 。 这 种 复杂 性 一 方面 创造 了 机 会 ， 另 一 方面 
也 产生 了 问题 。 以 全 球 化 为 例 , 今天 ， 你 可 以 轻松 地 在 世界 上 的 许多 国家 找到 供应 商 和 顾客 ， 这 
就 意味 着 你 可 以 买 到 更 加 便宜 的 原料 ， 并 将 产品 和 服务 卖 给 更 多 的 顾客 ， 存 在 很 多 机 会 。 然 而 全 
球 化 意味 着 更 多 和 更 激烈 的 竞争 。 商 业 环 境 因素 可 以 分 成 主要 的 4 种 类 型 : 市 场 因素 、 顾 客 需求 
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因素 、 技 术 因素 、 社 会 因素 。 表 1-1 对 这 4 类 因素 进行 了 总 结 。 

值得 注意 的 是 这 些 因素 的 影响 会 随 着 时 间 变 得 更 强 ， 这 会 导致 更 大 的 压力 和 更 激烈 的 竞争 。 
除 此 之 外 ， 为 了 增加 利润 ， 组 织 和 组 织 内 的 部 门 会 面临 来 自 更 少 的 预算 和 上 层 管理 者 要 求 提高 
绩效 和 利润 的 更 大 压力 。 在 这 种 环境 下 ， 经理 们 必须 以 更 快 的 速度 来 应 对 ， 即 创新 和 敏捷 。 我 们 














来 看 看 他 们 是 如 何 做 到 的 。 #1-1 给 组 织 制造 压力 的 商业 环境 因素 
组 织 反应 : RT. MA. UNH. Be 描述 | 
前 瞻 性 ”不论 私人 组 织 还 是 公共 组 织 都 清楚 。 ”市 场 因素 ”激烈 竞争 
地 意识 到 了 今天 的 商业 环境 和 压力 。 它 们 用 扩大 的 全 球 市 场 
不 同 的 行动 来 应 对 压力 。 例 如 Vodafone New 网 络 上 日 益 增 加 的 电子 市 声 
Zealand (Krivda, 2008 年 ) 利用 商务 智能 ata 
é 支持 信息 技术 外 包 的 机 会 
来 改善 沟通 ， 在 保持 现 有 顾客 和 在 现 有 顾客 re det 
中 取得 更 多 收益 方面 支持 管理 人 员 (参看 ”顾客 需求 ”定制 愿望 
本 章 末 的 应 用 案例 )。 经 理 们 可 能 采取 其 他 追求 高 质量 、 产 品 多 样 化 、 快 速 物流 
的 措施 ， 包 括 顾客 变 得 强大 和 缺少 忠诚 
技术 更 多 创新 、 新 产品 和 服务 
aa 不 断 增 加 的 报废 率 
。 应 用 新 的 和 创新 性 的 商业 模型 in Rake 
。 业务 流程 再 造 社交 网 络 、Web 2.0 等 
e 参加 商业 联盟 社会 环境 ”不 断 增 加 的 政府 管制 和 放松 管制 
。 改善 企业 信息 系统 劳动 力 更 多 样 化 、 老 龄 化 并 包括 了 更 多 的 女性 
© 改善 与 合作 伙伴 的 关系 FL See AU i HL 
。 鼓励 创新 和 创造 性 萨 班 类 法 案 的 必要 性 和 其 他 报告 相关 立法 
公司 日 益 增 加 的 社会 责任 
。 完善 客户 服务 和 关系 对 于 持续 性 更 大 的 关注 
。 转向 电子 商务 (e- 商 务 ) 
。 转向 订单 驱动 式 生 产 和 面向 需求 的 生产 和 服务 
e 利用 新 的 IT 技术 改善 沟通 、 数 据 获 取 (信息 发 现 ) 和 合作 
。 面 对 竞 争 对 手 的 行动 快速 做 出 反应 (例如 在 定价 、 促 销 、 新 产品 和 服务 方面 ) 
。 白领 雇员 的 许多 工作 的 自动 化 
o 某 些 决策 过 程 自动 化 ， 特 别 是 通过 雇佣 专业 分 析 人 员 来 提高 决策 质量 


即使 不 是 全 部 ， 许 多 这 些 反 应 也 都 需要 计算 机 化 的 支持 。 这 些 和 其 他 的 行为 是 经 常 需要 计 
算 机 化 的 决策 系统 支持 的 。 

缩小 战略 差距 计算 机 化 的 决策 支持 系统 的 一 个 主要 目标 就 是 为 缩小 现在 组 织 的 绩效 和 它 
所 期 望 的 绩效 之 间 的 差距 提供 便利 ， 通 常 表述 为 组 织 的 使 命 、 方 向 、 目 标 和 达到 目标 的 战略 。 为 
了 理解 为 什么 需要 计算 机 化 支持 和 它 是 如 何 被 提供 的 ， 让 我 们 来 回顾 一 下 商务 智能 的 框架 和 它 
在 决策 支持 中 的 应 用 。 


1. 1 节 复 习题 
1. 列举 商业 压力 -反应 -支持 模型 的 组 成 并 解释 这 个 模型 。 
2. 什么 是 当今 商业 环境 中 最 主要 的 因素 ? 
3. 组 织 在 面 对 当 今 商业 环境 时 所 做 出 的 行动 是 什么 ? 
1.2 商务 智能 框架 
决策 支持 概念 正在 被 越 来 越 多 提供 决策 支持 工具 和 方法 的 供应 商 以 不 同 的 名 称 逐 渐 实 现 。 
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随 着 企业 规模 系统 的 成 长 ， 经 理 们 可 以 更 方便 地 得 到 用 户 友 好 的 报告 ， 这 些 报告 能 够 使 他 们 更 
快 地 做 出 决策 。 这 些 系统 ， 通 常 叫 做 高 级 管理 人 员 信 息 系 统 (Executive Information System, 
EIS) ， 可 以 提供 可 视 化 、 预 警 和 绩效 考核 能 力 。 到 了 2006 年 ， 概 括 地 定义 ， 主 要 的 商业 化 的 产 
品 和 服务 被 称 为 商务 智能 (Business Intelligence, BI). 


1.2.1 BI 的 定义 


商务 智能 是 个 概括 性 术语 ， 它 包括 了 构架 、 工 具 、 数 据 库 、 分 析 工 具 、 应 用 和 方法 论 。 这 是 
一 个 无 内 容 表述 ， 所 以 对 于 不 同 的 人 意味 着 不 同 的 含义 。 关 于 商务 智能 的 一 部 分 迷惑 在 于 与 它 
有 关 的 一 些 缩 略 语 和 流行 语 的 混淆 (例如 业务 绩效 管理 ) 。 商 务 智能 的 主要 目标 就 是 实现 数据 的 
交互 (有 了 时候 是 实时 的 ) ， 实 现 对 数据 的 操作 ， 使 管理 者 和 分 析 员 能 够 实施 合理 的 分 析 。 通 过 对 
历史 和 现 有 数据 、 位 置 、 性 能 的 分 析 ， 决 策 者 可 以 得 到 有 价值 的 深刻 理解 ， 这 些 研究 使 决策 者 可 
以 做 出 更 好 的 决策 。BI 的 过 程 是 以 将 数据 转换 成 信息 为 基础 ， 然 后 做 出 决策 ， 最 终 开 始 行动 。 


1.2.2 BI 的 历史 


BI 这 个 词 是 由 Gartner Group 在 20 世纪 90 年 代 中 期 提出 来 的 。 然 而 ， 这 个 概念 出 现 的 更 早 ， 
它 可 以 溯源 到 20 世纪 70 年 代 的 管理 信息 系统 (Management Information System, MIS) 的 报告 系 
统 。 在 那个 时 期 ， 报 告 系统 是 静态 的 、 二 维 的 ， 没 有 分 析 能 力 。 在 20 世纪 80 年 代 早 期 ， 高 级 管 
理 人 员 信 息 系 统 (Executive Information System, EIS) 的 概念 出 现 了 。 这 一 概念 将 计算 机 化 支持 
系统 扩展 到 了 高 层 经 理 和 管理 人 员 。 这 些 能 力 有 动态 的 多 维度 的 报告 、 预 测 和 预报 、 趋 势 分 析 、 
深入 到 细节 、 状 态 访问 和 关键 成 功 因 素 (CSF) 分 析 。 到 了 20 世纪 90 年 代 中 期 ， 这 些 特 征 才 出 
现在 一 系列 的 商业 化 产品 中 。 然 后 ， 相 同 的 能 力 和 具有 一 些 新 功能 的 产品 被 称 为 HI。 今天， 一 
个 好 的 基于 BI 的 企业 信息 系统 包含 了 管理 人 员 所 需要 的 所 有 信息 。 所 以 ， 最 初 的 EIS 概念 发 展 
成 了 BI。 到 了 2005 年 ，BI 系 统 开始 包括 了 人 工 智 能 和 强大 的 分 析 能 力 。 图 1-2 展示 了 在 BI 系统 
中 可 能 包含 的 各 种 各 样 的 工具 和 技术 。 它 也 展示 了 BI 的 发 展 历程 。 图 1-2 中 提供 的 各 种 工具 为 





电子 表格 
(MS Excel) 





图 1-2 BI 的 发 展 
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BI 提供 了 各 种 能 力 。 最 复杂 的 BI 系统 包含 了 大 多 数 的 这 些 工 具 ， 其 他 一 些 专业 的 BI 系统 只 包含 
了 一 部 分 这 些 工 具 。 第 2 章 到 第 6 章 将 更 详细 地 讲述 这 些 功能 。 


1.2.3 BI 的 架构 


BI 系统 通常 包括 4 个 主要 的 部 分 : 带 有 数据 源 的 数据 仓库 ; 商业 分 析 (一 个 用 于 挖掘 和 操 

作 分 析 数 据 仓库 中 的 数据 的 工具 集 ); 用 来 监测 和 分 析 绩 效 的 业务 绩效 管理 (Business Perform- 

ance Management, BPM); 用 户 界面 (如 仪表 盘 ) 。 这 4 个 部 分 之 间 的 关系 如 图 1-3 中 所 示 。 第 2 
章 至 第 6 章 将 详细 讲述 这 些 内 容 。 

数据 仓库 业务 分 析 环 境 性 能 和 策略 





经 理 /高 管 
业务 绩效 管理 策略 

















图 1-3 BI 的 高 层 架 构 
来 源 : Based on W. Eckerson,Smart Companies in the 21st Century: The Secrets of Creating Successful Business In- 
telligent Solutions. The Data Warehousing Institute , Seattle, WA ,2003 , p. 32 , Illustration 5. 


值得 注意 的 是 数据 仓库 环境 主要 是 技术 人 员 负 责 ， 然 而 分 析 环境 〈 也 称 做 商业 分 析 ) 是 属于 商 
业 用 户 范围 的 。 任 何 用 户 都 可 以 通过 用 户 界面 (如 浏览 器 连接 系统 。 高 层 管理 者 也 会 用 到 BPM 
组 件 和 仪表 盘 。 一 些 商 业 分 析 和 用 户 界 面 工具 将 在 1.7 节 和 第 4 章 和 第 5 章 进 行 简要 的 叙述 。 

数据 仓库 ”数据 仓库 和 一 些 它 的 衍生 物 是 任何 一 个 大 中 型 BI 系统 的 基石 。 最 初 ， 数 据 仓库 
仅仅 包括 那些 总 结 和 组 织 好 的 历史 数据 ， 所 以 最 终 的 用 户 能 够 容易 地 查看 和 处 理 数据 和 信息 。 
今天 ， 有 些 数 据 仓库 也 包括 现 有 的 数据 ， 所 以 它们 能 有 提供 实时 的 决策 支持 〈 见 第 2 章 ) 。 

商业 分 析 最终 用 户 能 够 通过 一 系列 的 工具 和 技术 利用 数据 仓库 中 的 信息 。 这 些 工 具 和 技 
术 可 以 分 成 如 下 的 两 大 类 : 

1. 报告 和 查询 ”商业 分 析 包 括 静 态 和 动态 报告 、 所 有 类 型 的 查询 、 信 息 的 发 现 、 多 维度 视 
图 、 深 入 到 细节 等 。 这 些 将 在 第 3 章 中 进行 讲述 。 这 些 报告 与 BPM 相关 (将 在 下 面 介绍 )。 

2. 数据 、 文 本 、Web 挖掘 和 其 他 复杂 的 数学 和 统计 工具 ”数据 挖掘 (在 第 2 章 至 第 6 章 中 
进行 讲述 ) 是 一 个 在 大 型 数据 库 或 是 数据 仓库 中 ， 对 于 未 知 关 系 和 信息 的 寻找 过 程 ， 这 个 过 程 
要 应 用 智能 工具 ， 例 如 神经 网 络 、 预 测 分 析 技 术 ， 或 是 高 级 统计 工具 ( 见 第 4 章 ) 。 就 像 在 第 5 
章 中 讨论 的 那样 ， 挖 掘 可 以 在 网 络 中 进行 ， 也 可 在 文本 数据 中 进行 。 下 面 就 是 两 个 有 用 的 数据 挖 
掘 的 实际 应 用 。 

”对 于 新 产品 或 服务 的 成 功 预 测 ， 对 于 任何 一 个 企业 来 说 都 是 一 个 挑战 ， 对 于 像 电影 、 音 乐 之 
类 的 娱乐 产品 预测 收益 是 个 特别 困难 的 问题 。Epagogix 专门 从 事 通过 对 电影 剧本 的 详细 分 析 来 预 
测 电影 的 成 功 与 否 。 就 像 Davenport 和 Harris 在 2009 年 报道 的 ，2007 年 他 预测 了 《Lucky you》 这 
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部 电影 将 会 有 一 个 微不足道 的 700 万 美金 的 票房 ， 虽然 这 部 电影 包含 了 著名 的 明星 和 著名 的 导 
演 ， 并 且 花 费 了 5 000 万 美元 的 巨 资 。 这 部 电影 最 终 只 是 收 到 了 600 万 美元 的 票房 ， 基 于 喜好 和 
建议 的 模型 也 会 被 其 他 诸如 Netflix 的 供应 商用 来 预测 哪个 电影 或 是 音乐 会 卖 得 好 。( 基于 第 4 章 
的 研究 ， 还 会 看 见 另外 一 个 数据 挖掘 用 于 电影 票房 成 功 的 应 用 。) 
| 示例 2 

澳大利亚 国家 银行 应 用 数据 挖掘 来 帮助 进行 营销 预测 。 这 些 工具 被 用 来 提取 和 和 分析 存 储 在 
银行 的 Oracle 数据 库 中 的 数据 。 特 殊 的 应 用 集中 于 评估 竞争 对 于 主动 权 是 如 何 影响 银行 的 底线 。 
数据 挖掘 技术 被 用 来 从 历史 数据 中 产生 市 场 分 析 模 型 。 银 行 认 为 在 一 个 竞争 日 益 激 烈 的 金融 服 
务 市 场 中 ， 主 动 权 是 维持 边缘 的 关键 。 

应 用 案例 1.1 描述 了 用 于 数据 挖掘 工具 的 另 一 个 BI 技术 一 一 聚 类 分 析 。 





应 用 案例 1. 1 选 址 


Hoyt Hihland Partners 是 一 个 营销 智能 公司 ， 它 主要 是 帮助 卫生 保健 提供 者 应 对 不 断 
增加 的 患者 人 数 。 这 个 公司 也 帮助 它们 决定 哪里 是 它们 提供 卫生 保健 业务 的 最 佳 选 址 。 
Hoyt Hihland 正在 与 一 家 紧急 护理 诊所 合作 。 这 家 诊所 面临 着 来 自 其 他 紧急 治疗 诊所 和 方 
便 治疗 诊所 的 非常 激烈 的 竞争 。 为 了 增加 收入 ， 这 个 诊所 需要 决定 它 是 否 应 该 改变 位 置 
或 是 改变 营销 业务 。 为 了 帮助 诊所 做 出 决定 ，Hoyt Hihland 确定 应 用 Acxiom 的 PersonicX 
系统 来 确定 诊所 的 目标 顾客 集中 的 地 区 。 

Acxiom 的 PersonicX 系统 将 每 个 美国 家 庭 分 成 70 个 部 分 和 21 个 年 龄 阶段 。 地 点 是 基 
于 特殊 的 消费 行为 和 人 口 特征 。 信 息 包括 能 够 概括 出 重要 市 场 的 消费 者 行为 、 态 度 、 消 
费 地 址 特征 的 调查 数据 。Hoyt Hihland 利用 PersonicX 来 决定 哪个 集群 出 现在 紧急 治疗 诊 
所 的 数据 库 中 ， 哪 个 集群 表现 出 很 高 的 投资 回报 (Return-on-Investment, ROI) 潜质 。 

应 用 软件 的 地 理 分 析 能 力 ，Hoyt Hihland 发 现 诊所 80% 的 患者 住 在 诊所 现 有 位 置 5 
英里 的 半径 范围 内 。 它 还 发 现年 轻 的 家 庭 在 数据 库 中 很 有 代表 性 ， 而 单身 和 老年 人 代表 
性 不 强 。 另 外 ， 它 发 现 离 诊 所 的 邻近 程度 是 在 一 个 紧急 诊所 选 址 中 的 首要 条 件 。 这 一 分 
析 结 果 帮 助 诊所 认识 到 最 好 的 行动 决策 是 改变 它 的 营销 侧重 点 而 不 是 改变 诊所 的 位 置 。 
今天 ， 诊 所 将 它 的 营销 重点 放 在 了 住 在 距 诊所 半径 5 英里 范围 内 的 年 轻 家 庭 的 患者 。 


来 源 :“Location ,Location ,Location ,”Acxiom ,acxiom. com( accessed March 26 ,2009). 








si 


业务 绩效 管理 ”也 称 做 企业 绩效 管理 (Corporate Performance Management, CPM), BPM 是 一 
个 正在 兴起 的 一 些 应 用 和 方法 论 的 组 合 ， 包 括 演进 的 BI 结构 和 它 的 核心 工具 。BPM 通过 引进 管 
理 和 反馈 的 概念 包含 了 监管 、 测 量 、 销 售 对 比 、 利 润 成 本 、 利 润 率 和 其 他 的 一 些 绩效 指标 。 它 包 
含 了 将 诸如 计划 和 预测 作为 中 心 内 容 的 商业 战略 流程 。 与 传统 的 能 够 将 底层 数据 抽取 出 来 变换 
成 信息 的 DSS、EIS 和 BI 相 比较 ，BPM 能 够 实现 一 个 公司 范围 内 从 上 到 下 执行 的 战略 。BPM 是 
第 3 章 的 主要 内 容 ， 通 常 与 平衡 记分 法 和 仪表 盘 结 合 使 用 。 

用 户 界面 : 仪表 盘 和 其 他 信息 广播 工具 仪表 盘 〈 与 自动 仪表 盘 类 似 ) 提供 一 个 综合 的 公 
司 绩效 措施 (也 称 为 关键 绩效 指标 ) 、 趋 势 和 例外 的 可 视 化 视图 。 它 们 整合 了 不 同 商业 地 区 的 信 
息 。 仪 表盘 能 够 显示 与 预期 的 度量 标准 对 比 后 的 真实 的 绩效 图 表 。 从 仪表 盘 能 够 一 眼 就 看 出 组 
织 机 构 运行 得 是 否 健康 。 除 了 仪表 盘 外 ， 其 他 能 够 发 布 信息 的 工具 有 企业 门户 ， 数 字 驾 驶 舱 以 及 
其 他 的 可 视 化 的 工具 〈 见 第 3 章 ) 。 许 多 从 多 维度 立体 化 的 呈现 方式 到 虚拟 现实 的 可 视 化 工具 ， 
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都 是 BI 的 组 成 部 分 。BI 是 从 EIS 发 展 过 来 的 ， 所 以 许多 提供 给 高 级 管理 人 员 的 可 视 化 辅助 手段 
被 移植 到 BI 软件 中 。 而 且 ， 诸 如 地 理 信息 系统 (Geographical Information System, GIS) 的 技术 在 
决策 支持 系统 中 占有 越 来 越 重 要 的 地 位 。 


1.2.4 Bl 的 形式 


BI 的 结构 取决 于 它 的 应 用 。MicroStrategy Corp 区 分 了 5 种 HI 形式， 并且 给 每 种 形式 提供 了 特 
殊 的 工具 。 这 5 种 形式 是 报告 交付 和 预警 、 企 业 报告 (用 仪表 盘 和 积分 卡 )、 立 体 分 析 (被 称 做 是 
切片 和 山子 分 析 ) 、 特 定 查询 、 统 计 和 数据 挖掘 。 第 2 章 将 会 学 习 更 多 的 关于 MicroStrategy 的 软件 。 


1.2.5 BI 的 好 处 


就 像 在 开篇 故事 中 提出 的 ，BI 对 于 一 个 公司 主要 的 好 处 就 是 能 够 在 需要 的 时 候 提 供 精 确 的 
信息 ， 包 括 对 于 一 个 公司 及 其 部 门 绩效 的 实时 视图 。 这 样 的 信息 对 于 战略 规划 ， 甚 至 是 生存 等 所 
有 类 型 的 决策 都 是 必需 的 。Thompson (2004) 也 表明 BI 最 常用 的 应 用 领域 就 是 常规 报告 、 销 售 
和 营销 分 析 、 计 划 和 预测 、 财 务 合 并 、 法 定 报告 、 预 算 和 营利 性 分 析 。 

组 织 机 构 为 了 提高 它们 的 商业 运作 ， 被 迫 要 捕获 、 理 解 、 利 用 它们 的 数据 来 支持 决策 的 制 
定 。 现 在 立法 和 法 规 (例如 2002 年 萨 班 斯 法 案 ) 要 求 企业 领导 人 将 他 们 的 商业 过 程 文档 化 ， 签 
发 他 们 依赖 的 合法 信息 ， 并 向 相关 利益 者 报告 。 另 外 ， 商 业 循环 周期 变 得 越 来 越 短 、 快 速 和 信息 
化 ， 更 好 的 决策 制定 是 竞争 非常 必要 的 。 管 理 者 们 需要 在 合适 的 地 点 、 合 适 的 时 候 获 得 正确 的 信 
息 。 组 织 机 构 必须 更 加 灵活 地 工作 。 所 以 ， 一 点 也 不 奇怪 ， 越 来 越 多 的 组 织 开始 拥护 支持 BI。 
开始 的 引 例 讨论 了 Norfolk Southern 公司 BI 的 成 功 案例 。 在 接 下 来 的 第 2 章 至 第 6 章 中 将 有 更 多 
的 关于 BI 成 功 的 案例 和 这 些 成 功 的 基础 。 表 1-2 列 出 了 关于 BI 典型 应 用 的 例子 。 在 应 用 案例 
1.2 中 描述 了 一 个 采用 预测 分 析 工 具 进 行 数 据 挖掘 的 案例 (将 在 第 4 章 至 第 6 章 讲 述 ) 。 


表 1-2 BI 分 析 应 用 的 商业 价值 








分 析 应 用 商业 问题 商业 价值 

顾客 分 割 我 的 顾客 居于 市 场 的 什么 部 分 ? 顾客 们 能 够 获得 更 高 满意 度 和 保留 的 个 性 化 的 客户 关系 
有 什么 特征 

购买 倾向 哪些 顾客 最 有 可 能 对 公司 的 促销 做 出 基于 顾客 的 需求 锁定 顾客 
反应 并 增加 顾客 对 于 公司 产品 的 忠诚 度 


同时 ,通过 关注 最 有 可 能 购买 的 顾客 来 提高 促销 


利润 
MAAA 公司 顾客 的 终生 利益 是 什么 基于 顾客 的 终生 利益 制定 个 体 商 业 交互 




















欺诈 检测 公司 如 何 识别 哪些 交易 有 可 能 是 欺骗 公 快速 识别 欺诈 并 立刻 采取 措施 是 成 本 最 低 
司 的 
顾客 摩擦 哪些 顾客 有 离 去 的 风险 阻止 高 价值 客户 流失 和 放手 低 价值 顾客 
渠道 优化 满足 每 部 分 顾客 的 最 好 的 渠道 是 什么 基于 顾客 喜好 和 公司 管理 成 本 的 需要 与 客户 接触 


来 源 : A. Ziama and J. Kasher(2004) ,Daia Mining Primer for the Data Warehousing Professional. Dayton , OH ; Teradata. 








应 用 案例 1.2 Alltel Wireless: 在 准确 的 时 间 将 准确 的 信息 送 给 正确 的 客户 


2006 年 4 月 ，Alltel Wireless (现在 已 经 与 Verizon 合并 ) 发 起 了 一 项 “我 的 圈子 ”的 活动 
并 且 在 手机 产业 发 起 了 一 场 革 命 。 第 一 次 ， 顾 客 可 以 免费 在 任何 网 络 给 任何 一 个 10 位 号 码 不 受 
限制 地 打 电 话 。 为 了 在 越 来 越 多 的 无 线 接 入 率 的 时 代 巩 固 “ 我 的 圈子 ”活动 的 效果 ，Alltel RM 
需要 一 个 集中 的 、 关 注 数据 的 方案 来 增加 新 客户 的 数量 并 且 增 进 和 现 有 顾客 的 关系 。 
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通过 Acxiom 的 PersonicX 部 门 系统 (acxiom. com), Alltel 能 够 通过 顾客 特殊 的 消费 行为 
和 人 口 特征 将 关于 美国 家 庭 的 信息 进行 分 类 。 这 个 功能 增加 了 Alltel 的 顾客 ， 对 更 好 地 洞察 
购买 行为 和 顾客 订阅 周期 事件 提供 了 更 丰富 的 展望 数据 。 利 用 这 些 分 析 技 术 ，Alltel 可 以 通知 
特定 的 顾客 群体 关于 一 些 可 以 增加 客户 无 线 体验 的 机 会 ， 例 如 文本 信息 和 铃声 下 载 。 另 外 ， 
Alltel 现在 能 够 定位 那些 很 有 可 能 通过 低 成 本 网 络 和 客户 中 心 渠 道 激活 订阅 的 新 客户 。 

应 用 Acxiom 的 BI 软件， 通过 自动 化 Alltel 的 客户 生命 周期 管理 ，Alltel 一 年 可 以 管理 超 
it 300 个 直接 的 营销 主动 权 ; 增加 了 265% 的 客户 人 数 ; 投资 回报 率 增 加 133%; 同时 创造 了 
超过 3 000 万 美元 的 正在 进行 的 业务 。 


来 源 ; “Customer Lifecycle Management,” Acxiom ,acxiom. com( accessed March 26 ,2009 ). 














自动 化 决策 制定 ”一 个 比较 新 的 支持 决策 制定 的 方法 是 自动 决策 系统 (Automated Decision 
System，ADS) ， 有 时 被 称 做 决策 自动 化 系统 (Decision Automation System, DAS) (参见 Davenport 
and Harris, 2005); ADS 是 一 个 基于 规则 的 系统 ， 通 常 在 一 个 功能 领域 (例如 金融 业 ， 制造 业 )， 
针对 某 个 行业 特定 的 重复 性 的 管理 问题 提供 解决 方案 (例如 对 于 一 项 贷款 请 求 的 批准 与 拒绝 ， 
决定 商店 中 的 某 个 商品 的 价格 ) 。 应 用 案例 1. 3 就 展示 了 一 个 应 用 ADS 来 解决 组 织 机 构 都 面 对 如 
何 给 产品 或 是 服务 定价 的 问题 。 

ADS 最 初出 现在 航空 产业 ， 在 这 个 产业 ，ADS 被 称 做 收入 (或 者 产 出 ) 管理 (或 者 收益 优 
化 ) 系统 。 航 空 公司 应 用 这 套 系统 在 实际 需求 的 基础 上 动态 地 为 机 票 定价 。 今 天 ,许多 服务 行 
业 都 应 用 相似 的 价格 模型 。 与 能 够 通过 模型 为 通用 的 结构 化 问题 (例如 资源 分 配 、 确 定 存 货 水 
SE) 提供 解决 方案 的 管理 科学 的 方法 相 比 ，ADS 能 够 提供 基于 规则 的 解决 方案 。 以 下 是 一 些 商 
业 规 则 :“ 如 果 从 洛杉矶 到 纽约 航班 的 70% 的 座位 已 经 在 出 发 前 3 天 售 出 ， 那 么 就 给 非 商 务 旅客 
一 个 x 的 折扣 ”,“ 如 果 一 个 申请 者 拥有 一 套房 子 和 每 年 超过 100 000 美元 的 改造 费 ， 那 么 就 提供 
一 个 10 000 美元 的 信贷 额度 ”,“ 如 果 一 件 产 品 的 单价 是 2 000 美元 ， 并 且 公 司 每 年 只 是 购买 一 
次 ,那么 采购 代理 不 需要 特别 批准 。” 这 些 通过 经 验 或 是 通过 数据 挖掘 得 到 的 规则 ， 能 够 和 数学 
模型 结合 使 用 形成 解决 方案 ， 自 动 和 快速 地 提供 给 问题 (例如: 基于 提供 的 信息 和 需要 证 实 的 
科目 ， 你 能 够 被 我 们 大 学 录取 ) ， 或 者 能 够 提供 给 做 最 终 决 策 的 人 【和 见 图 1-4) 。ADS 努力 在 业务 
规则 的 基础 上 对 重复 的 决策 实现 高 度 自动 化 (为 了 使 计算 机 化 的 成 本 更 加 合理 )。ADS 很 适合 一 
线 的 业务 人 员 ， 他 们 能 够 在 线 看 见 客户 信息 ， 必 须 经 常 地 做 出 快速 的 决策 。 关 于 ADS 的 更 多 的 


信息 请 参看 Davenport and Harris (2005) 。 


| sa 
业务 决策 规则 


自动 决策 支持 


图 1-4 自动 决策 框架 









类 型 
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应 用 案例 1.3 Giant Food Stores 为 整个 商店 定价 


Giant Food Stores，LLC， 是 一 个 总 部 设 在 宾夕法尼亚 州 卡莱尔 的 区 域 性 美国 连锁 超市 。 
它 实 行 一 个 有 限 品 种 的 每 天 低 价 政策 ， 这 一 政策 应 用 在 商店 内 的 大 多 数 产 品 上 。 公 司 拥有 一 
个 30 年 之 久 的 定价 和 促销 系统 ， 这 个 系统 非常 地 耗费 人 力 并 且 很 难 跟 上 快 节奏 的 零售 市 场 的 
定价 决策 要 求 。 这 一 系统 也 限制 了 公司 实施 更 多 复杂 定价 策略 的 能 力 。 

Giant Foods 想 通过 一 套 有 限 的 定价 规则 (零售 业 定 价 规则 可 能 包括 国有 品牌 和 私有 品牌 
之 间 的 关系 ， 尺 寸 大 小 之 间 的 关系 ， 结 尾数 字 例如 9 之 间 的 关系 ) 更 加 持续 一 致 地 实施 它 的 
定价 策略 。 过 去 ， 许 多 这 些 规则 是 写 在 纸 上 的 ， 另 外 一 些 是 在 相关 人 员 的 脑子 中 ， 有 些 规则 
文件 写 得 不 好 ， 以 至 于 其 他 人 很 难 理解 和 确保 一 致 性 。 在 价格 到 达 货 架 之 前 ,公司 也 没有 可 
靠 的 方法 去 预测 规则 改变 的 影响 。 

Giant Food 与 DemandTec 合作 部 署 了 一 套用 于 定价 决策 的 系统 。 这 一 系统 能 够 处 理 大 量 
的 销售 点 和 模型 的 竞争 数据 并 且 能 够 预测 消费 者 需求 ， 能 够 自动 化 和 流 线 化 复杂 的 基于 规则 
的 定价 计划 。 这 个 系统 能 够 在 不 增加 员工 的 情况 下 处 理 大 量 的 价格 变动 。 此 系统 允许 Giant 
Food 用 自然 语言 来 编写 价格 规则 ， 而 不 是 通过 技术 员 来 进行 。 系统 还 具有 预测 功能 。 这 些 能 
力 使 得 Giant Food 能 够 在 价格 到 达 货 架 之 前 预测 价格 变动 和 新 的 促销 带 来 的 影响 。Giant Food 
决定 在 整个 商店 连锁 链 实 施 这 套 系 统 。 

这 套 系统 使 得 Giant Food 在 定价 方面 变 得 更 加 的 灵活 。 它 现在 能 够 在 一 周 之 内 对 有 竞争 
的 价格 变动 或 是 供应 商 成 本 的 变动 做 出 反应 ， 而 不 是 在 得 到 资源 的 时 候 。 因 为 不 需要 因为 价 
格 的 变动 而 增加 员工 ， 所 以 Giant Food 的 生产 能 力 成 倍 地 增加 。Giant Food 集中 精力 在 满足 客 
户 需求 的 同时 持续 盈利 和 维持 它 的 价格 形象 。 

来 源 : “Giant Food Stores Prices the Entire Store with DemandTec,” DemaandTec, demandtec. com. (accessed March 

26 ,2009 ). 

















1.2.6 事件 驱动 预警 


ADS 的 一 个 例子 就 是 事件 驱动 预警 ， 它 是 一 个 警告 或 是 当 预 设 的 或 者 不 寻常 的 事件 发 生 时 
被 激活 的 行动 。 例 如 ， 信 用 卡 公司 已 经 建立 了 广泛 的 预测 分 析 模型 来 确定 可 能 的 诈骗 事件 ， 当 不 
正常 的 活动 被 注意 到 时 〈 例 如 当 一 个 用 户 没 有 这 样 的 交易 历史 记录 ， 而 大 宗 购 买 发 生 在 异常 或 
是 境外 的 时 候 ) ， 能 够 自动 地 提醒 信用 卡 用 户 核对 交易 。 如 果 一 个 客户 存 了 一 大 笔 钱 在 银行 ， 银 
行 可 能 自动 地 提供 一 个 更 高 利率 的 存款 证 (Certificate of Deposit, CD) 或 者 投资 。 这 样 的 预警 同 
样 应 用 在 基于 其 他 购买 完成 时 产生 促销 。 当 然 ， 预 警 同 样 通过 BPM 的 仪表 盘 呈 现 给 适当 的 经 理 。 
当 一 些 偏离 其 结果 的 显著 事件 存在 时 ， 这 些 经 理 有 责任 监管 这 些 行为 指标 。 


1.2 节 复 习题 


.BI 的 定义 。 

- 列 出 并 描述 BI 的 主要 组 成 部 分 。 
. 识别 BI 的 典型 应 用 。 

. 列举 ADS 的 例子 。 

. 列举 关于 事件 驱动 预警 的 例子 。 
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1.3 智能 创造 和 使 用 与 商务 智能 治 


1.3.1 智能 创造 和 使 用 的 循环 过 程 


数据 仓库 和 BI 初始 化 典型 地 遵循 着 一 个 与 军事 智能 初始 化 非常 相似 的 过 程 。 实 际 上 ，BI 的 
实施 者 们 经 常 遵循 如 图 1-5 所 描述 的 国家 安全 模型 。 这 个 过 程 是 通过 一 系列 相互 关联 的 步骤 来 实 
现 循环 的 。 分 析 是 将 未 经 加 工 的 信息 转变 成 决策 支持 信息 的 主要 步 又。 然而， 精确 或 可 靠 的 分 析 
是 不 可 能 的 ， 除 非 在 该 循环 中 的 其 他 步 又 被 合理 地 实施 。 过 程 和 实施 步骤 的 细节 参见 Krizan 
(1999) 和 第 4 章 。 


- 











计划 / 














图 1-5 智能 生成 和 使 用 流程 
来 源 : L. Krizan, Intelligence Essentials for Everyone. Washington DC; Joint Military Intelligence College 
(oocasional paper number six) Department of Defense, p. 6. 


一 旦 安装 数据 仓库 ,通用 的 智能 创造 过 程 就 从 识别 和 确认 特定 BI 项 目 开 始 了 。 对 于 每 个 在 
投资 组 合 中 潜在 的 BI 项 目 ， 应 用 投资 回报 (Return on Investment, ROI) 和 拥有 成 本 措施 来 估计 
成 本 效益 率 是 非常 重要 的 。 这 意味 着 每 个 项 目 都 要 经 过 通常 阶段 所 需 费 用 和 维持 商业 用 户 应 用 
费用 的 检查 。 男 外 ， 效 益 的 评估 需要 涉及 对 最 终 用 户 决 策 制定 影响 的 检查 ， 包 括 反 应 现金 流 加 速 
效益 措施 的 检查 。 一 些 组 织 将 项 目 优化 过 程 称 做 商务 智能 治理 (BI governance) 的 形式 ( Matney 
and Larson，2004 ) 。 一 个 主要 管理 问题 就 是 在 BI 项目 优化 中 谁 应 该 是 决策 的 制定 者 。 商 务 智能 
治理 的 两 个 关键 组 成 部 分 是 : (1) 功能 区 领导 和 产品 或 是 服务 区 领导 (中 间 层 ) 之 间 的 合作 关 
A; (2) 潜在 客户 和 提供 者 (业务 代表 和 代 方 代表 ) 之 间 的 关系 。 中 间 层 可 以 纵 观 整个 组 织 来 
确保 项 目的 优先 次 序 反 映 整 个 业务 的 需求 ; 他 们 确保 项 目 在 一 个 地 区 的 实施 相对 于 另 一 个 地 区 
不 是 局 部 最 优化 。 顾 客 可 以 为 项 目 中 产生 的 智能 的 潜在 用 处 提供 深入 的 理解 ， 同 时 供应 商 在 反 
映 交付 现实 的 立场 上 是 非常 重要 的 。 商 务 智能 治理 团队 的 典型 问题 就 是 : (1) 制定 项 目 分 类 
(投资 、 商 业 机 会 、 战 略 、 强 制 等 ); (2) 定义 项 目 选 择 的 标准 ; G) 决定 和 设置 管理 项 目 风 险 
的 框架 ; (4) 管理 和 平衡 项 目 内 部 依赖 关系 ; (5) 持续 管理 和 调整 投资 组 合 的 构成 。 
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1.3.2 智能 与 窃取 


虽然 许多 人 认为 智能 这 个 词 听 起 来 就 像 是 一 个 有 关 间 谍 秘 密 运 作 的 缩写 ， 致 力 于 偷 取 公 司 
秘密 或 是 政府 的 CIA ， 但 是 这 与 事实 相去 其 远 。 虽 然 这 种 间谍 活动 当然 会 发 生 ， 但 我 们 感 兴趣 的 
是 现代 公司 如 何 公正 合法 地 去 收集 他 们 的 客户 、 商 业 环境 、 相 关 利 益 者 、 业 务 流程 、 竞 争 对 手 和 
一 些 其 他 的 现 有 具有 潜在 价值 的 信息 资源 。 但 是 ， 收 集 信 息 才 刚刚 开始 。 大 量 的 这 样 的 数据 需要 
被 分 类 、 标 记 、 分 析 、 分 类 、 过 滤 ， 并 且 实 施 一 系列 其 他 操作 来 产生 有 用 的 、 能 够 影响 决策 制定 
和 提高 底线 的 信息 。 随 着 企业 跟踪 和 积累 越 来 越 多 的 数据 ， 这 些 主题 的 重要 性 与 日 俱 增 。 例 如 ， 
未 经 加 工 的 数据 数量 呈 指 数 增长 是 由 于 传感器 数据 的 出 现 导 致 的 ， 包 括 无 线 射 频 识 别 (Radio 
Frequency IDentification ，RFID ) 。 基 于 传感器 和 地 理 位 置 数据 的 应 用 将 会 成 为 下 一 代 BI 专家 最 令 
人 激动 和 快速 增长 的 应 用 类 别 ， 从 “文本 挖掘 ”中 获得 文本 资料 ， 从 “网 络 挖掘 ”中 获得 网 络 
资源 〈( 见 第 4 章 ) ， 伴 随 将 这 两 种 资源 合成 的 新 方法 的 出 现 ， 表 明 组 织 机 构 正 处 在 BI 决策 支持 的 
一 个 爆炸 新 纪元 的 边缘 。 

BI 已 经 形成 了 一 套 专 门 术 语 、 系 统 和 概念 ， 这 些 可 将 它 清楚 地 和 其 他 有 窃取 信息 倾向 的 国 
内 外 的 智能 系统 区 分 开 。 也 就 是 说 ， 有 许多 这 两 类 之 间 的 比较 ， 主 要 的 努力 就 是 尽力 去 获取 卓越 
的 智能 资源 ， 纯 度 和 可 靠 度 的 智能 处 理 过 程 ， 将 信息 恰当 地 传送 给 正确 客户 的 机 制 。 


1. 3 节 复 习题 


1. 列举 出 智能 创造 和 使 用 的 步 又 。 
2. 什么 是 商务 智能 治理 ? 
3. 什么 是 智能 收集 ? 


1.4 交易 处 理 和 分 析 处 理 


为 了 说 明 BI 的 主要 特性 ， 我们 首先 说 明 从 名 称 上 看 BI 不 是 交易 处 理 。 我 们 都 很 熟悉 支持 我 
们 日 常 交 易 的 信息 系统 ， 例 如 ATM 取款 机 、 银 行 存款 机 、 杂 货 店 的 收银 机 等 。 这 些 交 易 处 理 系 
统一 直 更 新 我 们 可 能 称 做 操作 数据 库 的 东西 。 例 如 ， 在 一 次 ATM 取款 交易 中 ， 需 要 相应 地 减少 
银行 存款 余额 ， 一 次 银行 存款 会 增加 相应 的 金额 到 银行 账户 中 。 一 个 杂货 店 的 购买 最 终 反 映 到 
商店 一 天 的 总 销售 计算 中 ， 并 且 在 我 们 购买 商品 的 同时 它 应 该 反映 一 个 相应 的 商店 库存 减少 量 
等 。 这 些 在 线 交 易 处 理 (Online Transaction Processing，OLTP， 也 称 为 联机 事务 处 理 ) 系统 处 理 
公司 的 日 常 实时 业务 。 相 反 ， 数 据 仓 库 是 一 个 截然 不 同 的 系统 ， 它 能 够 存储 分 析 中 将 会 用 到 的 数 
据 。 分 析 的 内 容 就 是 为 了 获得 商业 信息 而 清洗 数据 的 管理 能 力 ， 它 能 够 被 用 来 提供 战术 和 操作 
决策 支持 。 例 如 。 一线 人 员 可 以 做 出 更 快 和 见 多 识 广 的 决策 。 第 2 章 会 给 出 一 个 更 技术 化 的 数据 
仓库 定义 ,但 是 它 足 以 说 明 数 据 仓库 是 想 利 用 在 线 分 析 处 理 系统 的 信息 来 工作 。 

产生 于 企业 资源 计划 (Enterprise Resources Planning, ERP) 系统 ,或 者 是 在 它 的 互补 相似 的 
供应 链 管 理 (Supply Chain Management, SCM) 系统 ,或 者 是 客户 关系 管理 (Customer Relation- 
ship Management, CRM) 中 的 大 多 数 交易 数据 是 存储 在 OLTP 系统 中 ， 这 是 一 种 典型 的 计算 机 处 
理 过 程 ， 当 用 户 有 需求 时 就 快速 地 做 出 反应 。 每 个 需求 被 看 做 是 一 笔 计 算 机 记录 的 离散 事件 交 
易 ， 例 如 存货 收据 或 者 客户 订单 。 换 句 话 说 ,一 笔 交 易 需 要 一 套 两 个 或 多 个 数据 库 以 一 种 全 有 或 
是 全 无 的 方式 更 新 。 

能 够 使 OLTP 系统 有 效 地 进行 交易 处 理 这 种 特殊 的 设计 ， 对 于 终端 用 户 的 特别 报告 、 查 询 、 
分 析 是 没有 效率 的 。 在 20 世纪 80 ER, 许多 商业 用 户 将 他 们 的 主要 框架 称 做 “黑洞 ”， 因 为 所 
有 的 信息 都 进入 它 ， 但 是 信息 从 来 不 会 出 来 。 所 有 报告 都 是 通过 IT 员工 编程 得 到 ， 然 而 仅仅 
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“提前 装 好 ”的 报告 能 够 在 一 个 计划 好 的 基础 上 产生 ， 并 且 实 时 查询 根本 不 可 能 实现 。 虽 然 20 
世纪 90 年 代 的 基于 客户 /服务 器 模式 的 ERP 系统 有 点 能 够 面向 报告 ， 但 是 它 还 是 不 能 满足 一 个 
常规 的 、 非 技术 的 ， 最 终 用 户 对 于 操作 报告 和 交互 分 析 期 望 的 需求 。 为 了 解决 这 些 问题 ，DW 和 
BI 的 概念 产生 了 。 

数据 仓库 (Data Warehouse, DW) 包含 很 多 类 型 的 数据 ， 这 些 数据 能 够 在 某 个 时 间 点 呈现 
出 关于 商业 条 件 情况 连贯 的 描述 。 想 法 就 是 创建 一 个 数据 库 架 构 ， 这 个 数据 库 能 够 实时 在 线 并 
且 包 括 所 有 来 自 OLTP 系统 的 信息 ， 包 括 历史 数据 ,但 是 以 一 种 可 以 快速 有 效 地 进行 查询 、 分 析 
和 决策 支持 的 方式 来 重新 组 织 和 结构 化 。 

将 OLTP 从 分 析 和 决策 支持 中 分 离 出 来 ， 使 前 面 描 述 的 BI 优点 可 以 实现 。 下 面 将 描述 具有 
竞争 性 的 智能 和 优势 。 


1. 4 节 复 习题 


1. 定义 OLTP。 
2. 定义 OLAP, 


1.5 成 功 的 BlI 实施 
实施 和 部 署 一 个 BI 系统 可 能 会 耗 时 、 耗 费 资金 并 且 是 失败 的 。 让 我 们 来 探讨 一 些 相关 问题 。 


1.5.1 典型 的 Bl 用 户 群 体 


BI 有 更 大 更 多 样 化 的 用 户 群体 。BI 的 成 功 一 部 分 取决 于 组 织 中 的 什么 人 来 使 用 BI 系统 。BI 成 功 
的 最 重要 方面 就 是 它 必须 为 整个 企业 带 来 利益 。 这 就 是 说 很 有 可 能 有 许多 用 户 会 在 DW 投资 描述 的 开 
始 阶段 就 会 参与 进来 。 一 点 也 不 奇怪 ， 可 能 会 有 专注 战略 层 的 用 户 ， 也 会 有 专注 交易 层 的 客户 。 

存在 于 组 织 中 多 阶层 的 BI 用 户 能 够 帮助 指导 DW 的 构建 、BI 工具 的 类 型 和 其 他 需要 的 支持 
软件 。 当 BI 实施 时 ， 每 一 组 人 员 都 是 评估 特定 BI 成 本 和 利润 的 非常 好 的 信息 资源 。 从 上 面 的 讨 
论 中 可 以 看 到 ， 任 何 一 个 擅长 BI 方法 的 企业 的 特征 就 是 对 来 自 不 同 层次 潜在 用 户 的 鉴别 。 


1. 5.2 合适 的 计划 及 其 与 商业 战略 的 一 致 性 


首先 ， 投 资 BI 最 根本 的 原因 必须 与 公司 的 商业 战略 相 一 致 。BI 不 仅仅 是 信息 系统 部 门 的 技 
术 实 践 。 它 必须 是 一 种 通过 改进 商业 过 程 和 将 决策 制定 过 程 转变 为 数据 驱动 型 来 改善 公司 行为 
方式 的 一 种 手段 。 许 多 曾经 参与 过 成 功 BI 实施 的 BI 咨询 和 实践 专家 建议 : 计划 框架 是 必需 的 前 
提 条 件 。Gartner 公司 (2004 年 ) 曾经 开发 过 一 个 框架 ， 分 为 计划 、 业 务 执行 、 组 织 、 功 能 、 基 
础 设施 几 个 部 分 。 在 业务 和 组 织 层 ， 在 考虑 完成 任务 需要 具有 组 织 能 力 的 同时 ， 需 要 定义 战略 和 
业务 目标 。 高 层 经 理 们 还 应 该 考虑 到 以 下 的 内 容 : BI 实施 行动 所 处 的 组 织 文化 、 为 实施 初始 建 
立 激 情 、 为 组 织 内 部 建立 良好 的 能 够 分 享 BI 实施 的 程序 。 同 时 高 层 经 理 们 还 要 制定 组 织 准 备 应 
对 变化 的 计划 。 在 实施 过 程 中 ， 首 先 要 考虑 的 就 是 评估 IS 组 织 和 潜在 用 户 的 基本 技能 、 组 织 文 
化 是 否 服从 改变 。 从 这 些 评 佑 中 ， 假 设 公 司 有 理由 需要 实施 ， 那 么 公司 就 可 以 准备 一 个 更 详细 的 
行动 计划 了 。 男 外 一 个 实施 BI 成 功 的 关键 是 多 个 BI 项目 之 间 的 整合 (多 数 企 业 应 用 多 个 BI 项 
A) 和 BI 与 其 他 存在 于 组 织 和 商业 伙伴 中 的 IT 系统 之 间 的 整合 。 

如 果 一 个 企业 的 战略 与 实施 DW 和 BI 的 原因 一 致 ， 如 果 公司 的 IS 组 织 能 够 在 这 样 的 项 目 中 发 
挥 它 的 作用 ， 如 果 拥 有 需要 的 用 户 团体 并 且 拥有 合适 的 动机 ， 那 么 开始 实施 BI 和 在 公司 中 建立 一 
个 商务 智能 资格 中 心 (BI Competency Center, BICC) 是 非常 好 的 。 这 个 中 心 应 该 实现 下 面 的 功能 : 

。 中 心 能 够 证 明 BI 是 如 何 与 企业 战略 和 战略 实施 联系 在 一 起 的 。 
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中 心 能 够 鼓励 潜在 业务 客户 群体 与 IS 组 织 之 间 的 交流 互动 。 

中 心 应 该 能 够 作为 不 同业 务 之 间 的 知识 库 和 最 好 的 BI 实践 传播 者 。 

BI 实施 中 ， 好 的 标准 能 够 在 企业 中 得 到 拥护 和 鼓励 。 

IS 组 织 能 够 在 与 用 户 团体 交流 互动 的 过 程 中 学 到 很 多 ， 例 如 所 需要 的 各 种 分 析 工 具 的 知识 。 

业务 用 户 群 体 和 IS 组 织 能 够 更 好 地 理解 为 什么 为 了 适应 不 断 变化 的 业务 要 求 ， 数 据 仓库 
台 必 须 非 常 灵 活 。 

© 它 能 够 帮助 重要 的 利益 相关 者 像 高 级 管理 人 员 一 样 知道 BI 是 如 何 发 挥 重 要 作用 的 。 

另 一 个 HI 成 功 实施 的 重要 因素 就 是 它 本 身 具有 实时 的 、 基 于 需求 的 灵活 环境 ， 下 面 将 进行 介绍 。 


1.5.3 实时 的 、 基 于 需求 的 Bl 是 可 达到 的 


随 着 缩短 业务 数据 与 战略 目标 之 间 差 距 的 需要 越 来 越 迫 切 ， 对 于 实时 的 、 基 于 需求 的 分 散 
信息 获得 的 需求 也 日 益 增 加 。 结 果 被 称 做 实时 BI 应 用 系统 的 一 类 产品 出 现 了 ( 见 第 3 章 )。 像 
RFID 这 类 新 数据 生成 技术 的 使 用 更 加 加 速 了 这 种 增长 和 后 来 对 于 实时 BI 的 需求 。 传 统 的 BIA 
统 使 用 大 量 的 经 过 提取 、 清 洗 、 载 人 数据 仓库 的 静态 数据 来 生成 报告 和 分 析 。 然 而 ， 需 求 并 不 仅 
仅 是 生成 报告 ， 因 为 用 户 需 要 商业 监管 、 绩 效 分 析 和 对 于 事情 为 什么 发 生 的 了 解 。 这 些 能 够 提供 
给 用 户 ， 这 些 用 户 需 要 知道 (通常 是 实时 的 ) 数据 变化 或 者 相关 报告 的 有 效 性 、 预 警 ， 网 络 、 
电子 邮件 或 者 即时 通信 (Instant Messaging, IM) 应 用 中 事件 和 新 趋势 的 通知 。 除 此 之 外 ， 商 务 
应 用 能 够 按照 这 些 实时 BI 系统 发 现 的 信息 来 规划 。 例 如 ， 一 个 供应 链 管 理 系 统 (Supply Chain 
Management, SCM) 能 够 在 实际 库存 降 到 某 个 程度 时 自动 地 发 出 订单 获取 库存 ， 当 某 个 用 户 在 线 
发 出 的 订单 金额 超过 了 10 000 美元 的 时 候 ， 客 户 关系 管理 会 自动 地 触发 客户 服务 代表 和 信用 控 
制 职 员 来 查看 用 户 的 用 户 情况 。 

一 种 实现 实时 BI 的 方法 就 是 利用 传统 BI 系统 的 DW 模型 。 在 这 种 情况 下 来 自 创 新 的 BI 平 
台 制 造 商 〈Ascential 或 者 Informatica) 的 产品 能 够 提供 面向 服务 的 、 接 近 实 时 的 解决 方案 ， 这 些 
解决 方案 使 得 DW 比 典型 的 夜间 提取 /转换 /加 载 (Extract/Transfer/Load, ETL) 批 次 更 新 的 方式 
更 快 ( 见 第 2 章 )。 第 二 种 方法 通常 被 称 做 业务 活动 管理 (Business Activity Management, BAM) , 
这 种 方法 被 纯粹 提供 BAM 和 混合 BAM 中 间 件 的 提供 商 采用 (例如 Savvion, Heration, Software, 
Vitria, WebMethods, Quantive, Tibco, VineyardSoftwar), E Ait S DW, 应 用 网 络 服务 (Web 
service) 或 者 其 他 的 监测 手段 来 发 现 关键 商务 事件 。 这 些 软件 监管 〈 或 者 智能 代理 ) 能 够 安装 在 
网 络 独立 服务 器 或 是 交易 应 用 数据 库 上 ， 同 时 它们 能 够 使 用 基于 事件 和 过 程 的 方法 主动 地 、 智 
能 地 监测 业务 过 程 。 


1.5.4 开发 或 获得 BI 系统 


现在 ,许多 供应 商都 提供 多 样 化 的 工具 ,它们 中 一 些 工 具 是 完全 设计 好 的 (叫做 这 
(Shell) ) ， 你 需要 做 的 就 是 输入 你 的 数字 。 这 些 工 具 能 够 购买 或 是 租赁 。 关 于 产品 、 演 示 、 白 皮 
书 、 现 行 产品 信息 ， 可 以 访问 information- management. com。 需 要 进行 免费 用 户 注册 。 几 乎 所 
有 的 BI 应 用 是 由 供应 商 自 己 或 者 和 第 三 方 合 作 ， 用 它 提 供 的 壳 为 客户 构建 解决 方案 。 公 司 面临 
的 问题 就 是 要 选择 什么 样 的 方案 : 购买 、 租 赁 还 是 构建 。 每 种 方案 又 会 有 多 种 选择 。 做 出 决定 的 
主要 标准 就 是 理由 和 成 本 -利润 分 析 。 


1.5.5 理由 和 成 本 -利润 分 析 


随 着 BI 应 用 数目 的 增加 ， 证 明 它 们 合理 和 对 它们 进行 优化 的 需要 也 在 增加 。 由 于 大 量 无 形 
利益 的 存在 ， 这 不 是 一 项 简单 任务 。 直 接 或 是 无 形 利益 需要 被 识别 。 当 然 ， 这 也 是 为 什么 其 他 组 
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织 中 相似 应 用 的 知识 和 案例 学 习 非 常 有 用 的 原因 。 例 如 ， 数 据 仓库 研究 院 (tdwi. org/) 提供 了 
很 多 关于 产品 和 创新 应 用 与 实施 的 信息 ， 这 样 的 信息 能 够 在 评估 直接 和 无 形 利益 时 发 挥 作用 。 


1.5.6 隐私 安全 和 保护 


这 是 一 个 在 任何 一 个 计算 机 系统 发 展 中 都 特别 重要 的 问题 ， 特 别 是 在 可 能 拥有 控制 战略 价 
值 数据 的 BIH, AR, 员工 和 顾客 的 隐私 也 需要 保护 。 


1.5.7 系统 集成 和 应 用 


除了 小 部 分 较 小 的 应 用 外 ， 所 有 的 BI 应 用 都 必须 与 诸如 数据 库 、 遗 留 系统 、 企 业 系统 〈 特 
别 是 ERP 和 CRM) 、 电 子 商务 系统 (KEND) 等 更 多 系统 进行 集成 。 男 外 ，BI 应 用 通常 连接 
到 因特网 ， 并 多 次 连 入 到 商业 伙伴 的 信息 系统 中 。 

而 且 ，BI 工具 之 间 有 时 候 是 需要 集成 的 ， 这 样 使 得 它们 能 够 产生 协同 作用 。 

集成 的 需要 使 得 软件 供应 商 们 不 断 地 添加 新 功能 到 他 们 的 产品 中 。 购 买 包含 所 有 功能 软件 
包 的 顾客 只 需 和 一 个 供应 商 打交道 即 可 ， 而 不 用 处 理 系统 连接 问题 。 但 是 ， 他 们 可 能 丧失 利用 最 
好 的 组 件 构建 系统 的 优势 。 


1. 5 节 复 习题 


1. 描述 BI 用 户 的 主要 类 型 。 
2. 列举 一 些 Gartner 报告 中 强调 的 实施 要 点 。 
3. 列举 一 些 BI 成 功 因素 。 
4. 为 什么 很 难说 出 BI 应 用 的 理由 ? 
1.6 商务 智能 的 主要 工具 和 技术 
DSS 和 BI 如 何 实施 是 由 选用 的 工具 决定 的 。 


1.6.1 技术 和 工具 


在 过 去 几 年 中 开发 了 许多 支持 管理 决策 制定 的 技术 和 工具 。 它 们 以 不 同 的 名 字 和 定义 出 现 。 
表 1-3 描述 了 主要 的 计算 机 化 的 工具 分 类 。 表 1-3 中 的 内 容 将 在 其 他 章节 进行 详细 的 描述 。 


表 1-3 决策 支持 的 计算 机 工具 



























































工具 分 类 工具 和 缩 略 语 在 本 书 中 的 章节 

数据 管理 数据 库 和 数据 管理 系统 (DBMS) 2 
提取 、 转 换 和 加 载 系 统 (ETL) 2 
数据 仓库 (DW) 、 实 时 数据 仓库 ， 数 据 集 市 2 
状态 跟踪 报告 在 线 分 析 处 理 (OLAP) T 3 
高 级 管理 人 员 信息 系统 (EIS) 3 
可 视 化 地 理 信息 系统 (GIS) 3 
仪表 盘 3 
多 维 演示 3 
战略 和 绩效 管理 业务 绩效 管理 (BPM) 或 者 企业 绩效 管理 (CPM) 3 
商业 分 析 仪表 盘 和 平衡 记分 卡 3 

数据 挖掘 全 A, 5 
网 络 挖 气 和 文本 挖掘 5 
| 网 络 分 析 5 
社交 网 络 Web 2.0 6 
海量 数据 控 气 新 工具 现实 挖掘 6 
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1.6.2 选择 Bl 供应 商 


近来 , 在 BI 软件 和 应 用 提供 商 中 出 现 了 大 的 波动 。 有 些 公司 的 名 字 在 完成 本 书后 会 变 得 非 
常 的 熟悉 。 如 : Teradata, MicroStrategy, Microsoft, IBM + Cognos + SPSS、SAP + Business Objects、 
Oracle + Hyperion 、SAS， 还 有 许多 其 他 公司 。 有 许多 大 的 软件 公司 合并 其 他 的 公司 来 使 自己 产品 
包含 全 部 的 提供 方案 。 例 如 ，SAP 合并 了 Business Objects, 2008 年 IBM 合并 Cognos, 2009 年 合 
并 了 SPSS, Oracle 合并 了 Hyperion。 在 文本 、 网 络 和 数据 分 析 方面 出 现 了 新 的 公司 。 公 司 之 间 建 
立 了 合作 伙伴 的 关系 。 例 如 ，SAS 和 Teradata 已 经 形成 了 合作 伙伴 关系 来 共同 提供 数据 仓库 和 预 
测 分 析 能 力 。 


1.6 节 复 习题 


1. 列举 决策 支持 工具 6 种 主要 分 类 。 
2. 识别 主要 BI 零售 的 供应 商 公 司 。 


1.7 ”本 书 计划 

本 书 的 6 章 是 按照 以 下 顺序 进行 安排 的 。BI 包括 了 几 个 截然 不 同 的 组 成 部 分 。 第 2 章 主 
要 讲述 了 在 分 析 和 绩效 考核 中 必须 应 用 的 数据 仓库 。 第 3 章 讨 论 了 BPM、 仪 表盘 、 记 分 卡 和 
相关 内 容 ， 主 要 讲述 应 用 和 数据 挖掘 过程。 第 4 章 主要 描述 了 数据 挖 据 ， 包 括 神 经 网 络 等 算 
法 的 技术 细节 。 第 5 章 的 主要 内 容 是 文本 和 网 络 挖掘 新 出 现 的 应 用 。 第 6 章 是 对 于 全 书 的 总 
结 ， 并 讨论 了 一 些 新 的 趋势 ， 比 如 说 无 处 不 在 的 移动 电话 、 地 理 信息 系统 设备 、 个 人 无 线 数 
字 助 理 (Personal Digital Assistant, PDA) 是 如 何 使 得 大 量 数据 库 产生 的 。 新 的 数据 挖掘 产品 
和 BI 公司 正在 研究 这 些 新 的 数据 库 ， 并 对 顾客 行为 和 活动 有 了 更 好 更 深 的 理解 。 应 用 案例 
1.4 讨论 了 一 个 这 样 的 实例 一 一 现实 挖 据 。 我 们 在 第 6 章 中 将 学 到 这 种 应 用 和 其 他 更 多 的 
应 用 。 








应 用 案例 1.4 下 一 代 网 络 


传 感 网 络 是 当前 许多 公司 正在 开发 的 应 用 之 一 ， 这 一 应 用 能 够 更 好 地 理解 顾客 的 活 
动 。 其 中 有 一 种 应 用 就 是 分 析 超 过 400 万 手机 用 户 活动 的 数据 。 这 些 数据 来 自 GPS、 移 
动 电话 塔 和 当地 的 Wi-Fi 无线 网 点 。 这 些 数据 是 匿名 的 ， 但 是 彼此 之 间 是 相互 联系 的 。 
这 种 联系 使 得 数据 挖掘 者 能 够 找到 在 特定 时 间 、 特 定 地 点 的 顾客 群 。 聚 类 技术 能 够 识别 
这 些 顾 客 是 属于 哪个 “部 落 ” 一 一 商务 旅行 者 还 是 年 轻 旅行 者 等 。 通 过 详细 分 析 ， 在 合 
适 粒度 建立 起 来 的 客户 档案 能 够 使 企业 确定 目标 市 场 并 进行 促销 。 
除了 将 信息 用 于 更 精确 地 确定 目标 客户 这 一 传统 应 用 之 外 ， 这 样 的 系统 菜 一 天 能 够 
应 用 在 研究 犯罪 和 疾病 的 传播 上 。 其 他 正在 研究 实施 同样 分 析 技 术 的 公司 ， 还 有 Kinet- 
ics, Nokia 等 。 
来 源 : Compiled from S. Baker, “The Next Net,” Businessweek , March 2009, pp. 42 - 46 , Greene, K. , “Mapping a City’ s 
Rhythm ,” Technology Review , March 2009 ,at technologyreview. com/communications/22286/page' / ( access- 
ed January 2010) ,and Sheridan, B. ,“A Trillion Points OF Data, ” Newsweek ,March 9 ,2009 , pp. 34 - 37. 
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1.8 相关 资源 、 链接 和 Teradata 大 学 网 络 的 连接 
使 用 下 面部 分 中 描述 的 内 容 会 提高 对 于 本 书 学 习 的 效果 。 


1.8.1 资源 和 链接 ° 


我 们 推荐 下 面 的 主要 资源 和 链接 : 

。 数据 挖掘 研究 院 (tdwi. org) 

e 信息 管理 (information-management. com) 

。 在 线 分 析 处 理 (OLAP) 报告 (olapreport. com) 

。 决策 支持 系统 DSS 资源 (dssresources. com) 

e 信息 技术 工具 箱 (businessintelligence. ittoolbox. com) 

e 商业 智能 网 (b-eye-network. com) 

e AIS 世界 (isworld. org) 

e 微软 企业 财团 (enterprise. waltoncollege. uark. edu/mec) 


1.8.2 案例 


所 有 的 BI 供应 商 (例如 MicroStrategy, Microsoft, Oracle. IBM, Hyperion, Cognos, Exsys, 
SAS, FICO, BusinessObjects, SAP 和 Information Builders) 都 提供 有 趣 的 顾客 成 功 故事 。 学 术 案 
例 在 哈佛 商学 院 案例 收录 (hbsp. harvard. edu/b01/en/academic/edu_home. jhtml) 、 企 业绩 效 
提高 资源 (bpir com) 、 集 团 理念 出 版 社 (idea- group. com ) 、 常 春 芯 联 盟 出 版 (ivylp. com), 
知识 风暴 (knowledgestorm. com) 和 其 他 网 站 上 可 以 获得 。Miller 的 《MIS Cases) (2005 年 ) 
包含 了 简单 的 案例 、 应 用 电子 表格 和 数据 库 练 习 ， 支 持 本 书 多 章 的 内 容 。 


1.8.3 供应 商 、 产 品 和 演示 


许多 供应 商 提供 他 们 产品 和 应 用 的 软件 演示 。 在 dssresources. com 中 有 关于 产品 、 架 构 和 
软件 的 信息 。 


1.8.4 期 刊 


我 们 推荐 下 面 的 期 刊 : 

e Decision Support Systems) (决策 支持 系统 ) 

e (CIO Insight) (ff REALS) (cioinsight. com) 

e «Technology Evaluation) (技术 评估 ) (technologyevaluation. com) 
e (Baseline Magazine) (底线 杂志 ) (baselinemag. com) 

e (Business Intelligence Journal) (智能 商务 期 刊 ) (tdwi. org) 


1.8.5 Teradata 大 学 网 络 的 连接 
本 书 与 Teradata 大 学 提供 的 免费 资源 紧密 联系 (TNN; 参见 teradatauniversitynetwork. com) 。 





加 ”在 本 书 送 去 印刷 时 ， 我 们 验证 了 本 书 参考 的 所 有 网 站 都 是 有 效 并 可 用 。 然 而 ，URL 是 动态 的 ， 我 们 在 文章 中 参 
考 的 网 站 ， 有 时 由 于 公司 改变 名 称 、 被 收购 或 者 拍卖 、 合 并 、 或 者 失败 会 改变 或 者 不 可 用 。 有 时 ， 由 于 网 站 维 
护 、 修 复 、 重 新 设计 ， 网 站 会 关闭 。 许 多 组 织 的 网 站 已 经 不 采用 “www” 的 设计 ， 而 一 些 仍 在 使 用 。 如 果 您 在 
连接 网 站 时 遇 到 了 我 们 提 到 的 上 述 问 题 ， 请 耐心 等 候 并 使 用 网 络 搜索 找到 可 能 的 新 网 站 。 大 多 数 时 候 ， 您 能 够 
通过 一 个 流行 的 搜索 引擎 快速 地 找到 新 的 网 站 。 我 们 提前 为 这 种 情况 给 您 带 来 的 不 便 表 示 妇 意 。 
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TUN 门户 网 站 分 为 两 个 部 分 : 一 部 分 供 学 生 使 用 ， 一 部 分 供 员 工 使 用 。 本 书 通过 每 章 最 后 
提供 的 特殊 部 分 与 TUN 网 站 相连 。 这 些 部 分 包括 特定 章节 相关 资源 的 链接 。 另 外 ,在 TUN E, 
我 们 提供 利用 软件 和 其 他 资料 (例如 案例 ) 的 动手 练习 。 


1.8.6 本 书 的 网 站 


本 书 网 站 是 : pearsonhighered. com/turban, 包含 与 本 书 内 容 有 关 的 补充 材料 。 


本 章 重 点 


商业 环境 正在 变 得 越 来 越 复 杂 、 变 化 越 来 越 快 ， 这 使 得 决策 的 制定 更 加 困难 。 
。 业务 必须 通过 更 快 更 好 的 决策 快速 地 对 变化 的 环境 做 出 反应 和 适应 。 
。 制定 决策 的 时 间 框 架 正 在 缩小 ， 而 决策 制定 的 全 球 化 特性 正在 扩大 ， 这 使 得 计算 机 化 的 决策 支持 系 


统 的 发 展 和 使 用 更 加 必要 。 





出 来 。 


对 于 一 个 组 织 的 生存 来 说 ， 经 理 的 计算 机 化 支持 是 必需 的 。 

自动 决策 支持 为 许多 行业 提供 了 基于 规则 的 重复 性 决策 解决 方案 〈 例 如 定价 ) 。 

BI 方 法 利用 数据 仓库 能 够 进行 有 效 的 数据 挖掘 、 在 线 分 析 处 理 、 业 务 绩效 管理 、 数 据 可 视 化 。 

BI 包括 数据 仓库 、 最 终 用 户 使 用 的 商业 分 析 工 具 、 用 户 界 面 〈 例 如 仪表 盘 ) 。 

许多 组 织 使 用 BPM 系统 来 监测 运行 情况 ， 并 将 它们 与 标准 和 目标 进行 比较 之 后 用 图 表 形 式 表 示 


。 数据 挖掘 是 在 大 量 的 数据 中 找到 信息 和 关系 的 工具 。 
。 在 管理 决策 系统 的 使 用 和 发 展 中 发 挥 关键 作用 的 技术 有 : 网 络 技术 、 因 特 网 、 内 部 网 、 外 部 网 。 


关键 术语 

analytics 分 析 

Automated Decision Systems (ADS， 自 动 决策 系统 ) 
automated decision support 自动 决策 支持 

BI governance 商务 智能 治理 

business analytics 商业 分 析 

Business Intelligence (BI， 商 务 智能 ) 

Business Performance Management (BPM， 业 务 绩效 管理 ) 
or Corporate Performance Management ( CPM， 企 业 
绩效 管理 ) 

complexity 复杂 度 

corporate portal 公司 门户 网 站 

data 数据 

database 数据 库 

data mining 数据 挖掘 

decision making 决策 制定 


讨论 题 
1. 为 图 1-2 中 每 个 部 分 举 个 例子 。 
2. 区 分 智能 收集 与 窃取 信息 。 


3. 什么 是 商务 智能 治理 ? 
4. 讨论 在 BI 实施 中 的 主要 注意 事项 。 


Global Positioning System (GPS ， 全 球 定位 系统 ) 
Geographical Information System (GIS， 地 理 信息 系统 ) 
information 信息 

information overload 信息 过 载 

intelligence 智能 

intelligent agent 智能 代理 

knowledge 知识 

management science 管理 科学 

Online Analytical Processing (OLAP， 在 线 分 析 处 理 ) 
Online Transaction Processing (OLTP， 在 线 交 易 处 理 ) 
predictive analysis 预测 分 析 

predictive analytics 预测 分 析 学 

user interface 用 户 界 面 

Web service 网 络 服务 
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练习 

Teradata 大 学 网 络 (TUN) 和 其 他 的 动手 练习 题 

1. 访问 teradatauniversitynetwork. com。 利 用 指导 老师 提供 的 注册 ， 登 录 并 学 习 网 站 内 容 。 准 备 一 个 有 用 
的 资料 清单 。 你 会 收 到 与 网 站 有 关 的 作业 。 准 备 20 个 在 网 站 中 你 觉得 对 于 你 有 用 的 知识 清单 。 

2. 进入 TUN 网 站 选择 “案例 、 项 目 和 作业 ” (cases, project, and assignment) 。 然 后 选择 案例 学 习 : 
“Harrah 从 顾客 信息 中 得 到 的 高 回报 ”(Harrah ' s High Payoff from Customer Information ) 。 回 答 关 于 案例 的 
以 下 问题 ; 

a. 数据 挖掘 产生 什么 样 的 信息 ? 

b. 在 决策 制定 的 管理 中 ， 信 息 是 如 何 发 挥 作 用 的 ? 
c. 列 出 被 挖掘 的 数据 种 类 。 

d. 这 是 DSS 还 是 BI， 为 什么 ? 

3. 访问 teradatauniversitynetwork. com。 找 到 标题 为 : “Data Warehousing Supports Corporate Strategy at First 
American Corporation” 的 文章 (Watson, Wixom 和 he Goodhue) ， 阅 读 文章 并 回答 下 面 问题 : 

a. 公司 的 DW/BI 项 目的 驱动 是 什么 ? 
b. 实现 了 什么 战略 优势 ? 
c. 达到 了 哪些 操作 和 战术 优势 ? 
d. 实施 中 的 关键 成 功 因 素 (Critical Success factor, CSF) 是 什么 ? 

小 组 作业 和 角色 扮演 

1. 写 一 篇 5~10 页 的 报告 ， 描 述 一 个 你 熟悉 的 公司 在 决策 支持 中 是 如 何 使 用 计算 机 和 信息 系统 的 ， 包 括 网 
络 技术 。 基 于 本 章 的 知识 ， 描 述 如 果 决 策 支 持 系统 能 够 轻易 地 使 用 ， 那 么 经 理应 该 如 何 使 用 这 些 系统 ? 
哪些 是 你 可 以 得 到 的 ， 哪 些 不 是 ? 

2. 访问 fico. com, ilog. com 和 pega. com。 观 看 这 些 网 站 的 演示 。 准 备 行 业 和 功能 区 域 的 ADS， 列 举 哪 些 
决策 是 自动 制定 的 。 

网 络 练习 

1. 访问 fico. com。 应 用 网 站 信息 来 识别 在 不 同 功 能 区 域 的 5 个 由 ADS 支持 的 问题 。 

2. 沪 问 sap. com 和 orcal. com。 找 到 关于 ERP 如 何 帮 助 决策 者 的 信息 。 另 外 ， 检 查 这 些 软 件 产品 是 如 何 
利用 网 络 技术 和 网 络 本 身 的 。 基 于 的 你 的 发 现 写 一 篇 报告 。 

. 访问 intelligententerprise. com。 为 在 本 章 中 引用 的 每 个 题目 找到 一 些 有 趣 的 开发 报告 ， 并 写 一 篇 报告 。 

. 访问 cognos. com 和 businessobjects. com。 比 较 这 两 个 公司 的 BI 产品 的 性 能 。 

. 访问 microsoft. com。 检 查 它 的 BI 产品 。 

. 访问 oracle. com， 查 看 它 的 BI 产品 。Oracle 的 BI 产品 是 如 何 与 它 的 ERP 产品 联系 在 一 起 的 。 

. 访问 microstrategy. com， 找 到 关于 BIS 种 类 型 的 相关 信息 。 准 备 一 份 每 种 类 型 总 结 的 表格 。 

. 访问 oracle. com， 点 击 应 用 下 的 超 链 接 。 看 看 该 公司 的 主要 产品 是 什么 。 将 它们 与 本 章 提 到 的 支持 技术 
联系 起 来 。 


本 章 结尾 应 用 案例 


Vodafone 利用 商务 智能 实现 客户 增长 和 保留 计划 

问题 

Vodafone 新 西关 有限 公司 是 电信 巨头 UK 的 一 个 子 公司 ， 它 在 新 西 兰 取 得 了 巨大 成 功 。 从 很 小 的 基础 
上 ， 公 司 迅 速 获 得 了 超过 50% 的 市 场 份额 。 然 而 ， 随 着 移动 电话 市 场 逐 渐 走向 成 熟 ，Vodafone 的 市 场 份额 
停留 在 56% 左右 ,顾客 的 总 数 也 没有 变化 。 使 情况 更 加 糟糕 的 是 : 其 他 的 竞争 者 进入 ， 遵 守 政 府 政策 的 成 
本 增加 了 ， 每 个 客户 的 收益 也 停滞 不 动 。 公 司 不 得 不 重新 调整 它 的 从 现 有 顾客 保持 和 增加 利润 的 战略 。 
Vodafone 的 顾客 分 析 高 级 经 理 John Stewart 说 :“ 既 然 我 们 拥有 这 些 顾 客 ， 所 以 我 们 需要 回答 新 的 问题 : 我 
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们 怎么 增加 我 们 的 边际 利润 ? 我 们 怎样 留 住 客户 ?” Vodafone 需要 基于 它 的 市 场 、 顾 客 、 竞 争 者 的 实时 知识 
来 做 出 更 好 的 决策 。Cheryl Krivda 的 一 份 报告 中 指出 :“Vodafone 需要 使 用 能 够 提供 基于 事实 的 决策 支持 的 
BI， 全 面 转向 市 场 分 析 。 目 标 就 是 : 利用 现 有 渠道 ， 当 顾客 需要 时 ， 将 正确 的 信息 传达 给 正确 的 客户 。 

解决 方案 

首先 ，Vodafone 组 建 了 一 个 顾客 知识 和 分 析 部 门 来 实施 分 析 、 建 立 模型 、 市 场 研究 和 有 竞争 性 的 智能 。 
John Stewart 是 这 个 部 门 的 经 理 。Vodafone 利用 企业 数据 仓库 (Enterprise Data Warehouse, EDW) 来 获得 组 
织 内 所 有 信息 的 单方 面 查看 。EDW 可 以 实现 组 织 内 所 有 信息 的 集中 查看 ， 还 可 以 产生 事先 定义 好 的 查询 和 
报告 、 在 线 分 析 处 理 和 预测 分 析 ( 见 第 4 章 ) 。 公 司 同时 雇佣 建 模 专 家 来 培训 自己 的 分 析 团 队 。 除 了 Tera- 
data 数据 仓库 平台 外 ， 还 有 许多 其 他 的 软件 工具 ， 如 KXEN、SAS、SPSS， 也 被 用 来 建立 模型 和 进行 研究 。 


”应 用 Teradata 数据 仓库 平台 和 所 有 相关 的 工具 ，Vodafone 销售 部 门 的 员工 现在 能 够 实施 分 析 并 获得 更 
好 的 顾客 优化 、 活 动 有 效 性 分 析 和 顾客 服务 。Stewart 相信 新 的 工具 使 得 Vodafone 能 够 有 整体 视角 。 
他 说 : 作为 一 个 团队 ， 通 过 提问 和 提供 支持 ， 我 们 相互 扶持 。 在 这 个 过 程 中 ， 我 们 可 以 相互 
学 习 ， 这 能 够 使 我 们 对 于 业务 的 研究 更 有 价值 。 当 你 将 所 有 的 信息 和 知识 放 在 一 起 时 ， 你 能 够 发 


现 更 多 关于 顾客 的 信息 。 


EDW 的 一 个 应 用 就 是 基于 驱动 的 营销 活动 。 过 去 ， 在 实施 营销 活动 时 人 工 干预 是 需要 的 。 通 过 新 的 平 
台 ，Vodafone 能 够 自动 地 基于 顾客 最 近 的 活动 发 起 营销 活动 。 


- 


结果 


也 许 EDW 最 大 的 好 处 就 是 分 析 人 员 能 够 将 大 多 数 时 间 花 在 研究 数据 而 不 是 产生 数据 上 。“ 现 在， 我 们 
针对 顾客 的 活动 更 加 有 效 。” Stewart 说 。 但 是 ， 这 并 不 是 说 我 们 不 停 地 进行 活动 。 我 们 对 什么 样 的 顾客 实 


施 活动 更 加 有 目标 ， 与 顾客 的 相关 程度 也 更 大 。 


系统 也 在 决策 的 制定 过 程 中 帮助 决策 的 制定 者 提供 更 好 的 信息 。Vodafone 正在 开发 一 个 应 用 ， 这 一 应 
用 能 够 优化 收入 和 顾客 优先 次 序 。 目 标 就 是 在 活动 和 与 顾客 接触 的 过 程 中 获得 最 好 的 收益 。 不 用 泄露 细节 ， 


就 可 以 知道 公司 正在 朝 着 它 的 目标 迈进 。 


来 源 : Compiled from C. D. Krivda, “Dialing up Growth in a Mature Market,” Teradata Magazine ,March 2008 ,pp. 1 -3. 


本 章 结尾 案例 的 问题 

1. Vodafone 面 对 的 挑战 是 什么 ? 

2. 他 是 如 何 找到 问题 的 ? 

3. 列 出 Vodafone 的 应 用 使 用 了 哪些 工具 。 
4. 在 这 些 实施 中 得 到 的 好 处 是 什么 ? 

5. 我 们 在 这 个 案例 中 能 够 学 到 什么 ? 
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数据 仓库 





学 习 目 标 

m 理解 数据 仓库 的 基本 概念 和 定义 

图 理解 数据 仓库 架构 

图 描述 数据 仓库 开发 和 管理 的 过 程 

E 解释 数据 仓库 的 具体 运作 

m 解释 数据 仓库 在 决策 支持 中 扮演 的 角色 

图 解释 数据 集成 以 及 数据 提取 、 转 换 和 加 载 过 程 

m 描述 实时 数据 仓库 

E 理解 数据 仓库 的 管理 和 安全 问题 

数据 仓库 的 概念 早 在 20 世纪 80 年 后 期 就 提出 了 。 本 章 介绍 了 一 种 重要 的 基本 数据 库 类 型 ， 
即 数据 仓库 。 数 据 仓 库 主要 用 于 决策 支持 中 以 改进 分 析 能 力 。 


开篇 场景 : DirecTYV Hear RACE 


首先 来 看 DirecTV 公司 的 例子 ， 它 反映 了 交互 式 数据 仓库 和 商务 智能 软件 是 怎样 在 企业 中 传 
播 开 来 的 。 通 过 使 用 Teradata 和 GoldenGate 公司 的 解决 方案 ，DirecTV 开发 了 一 种 可 以 整合 全 公 
司 实时 数据 资产 的 产品 。 公 司 数据 仓库 总 管 ，Jack Gustafson 曾 公 开 宣 布 此 产品 在 持续 使 用 中 已 
经 收回 了 成 本 。DirecTV 采用 实时 交易 数据 管理 解决 方案 ， 这 一 技术 决定 所 带 来 的 商业 利益 已 经 
远 远 超 出 了 开始 预期 的 技术 利益 。 

DirecTV 以 电视 直播 卫星 服务 著名 ， 由 于 其 先进 的 高 清 编 程 、 交 互 功能 、 数 字 录 音 服务 和 电 
子 节目 指南 ，DirecTV 为 电视 产业 做 出 了 杰出 贡献 。DirecTV 在 全 美和 拉丁 美洲 拥有 超过 13 000 
名 雇员 ，2008 年 的 财政 收入 达到 20 亿美 元 ， 同 时 总 订户 数量 接近 5 000 万 。 

问题 

在 持续 性 的 快速 增长 中 ， 由 于 客户 日 电话 数量 不 断 增长 ， 所 以 DirecTV 面临 着 处 理 高 交易 数 
据 量 的 问题 。 随 着 市 场 情况 的 快速 变化 ， 如 何 存储 如 此 巨大 的 数据 量 是 DirecTV 面临 的 关键 挑战 
之 一 。 几 年 前 ， 公 司 开始 寻求 一 种 更 好 的 解决 方案 ， 用 来 给 商业 方 提供 呼叫 中 心 的 日 常 报告 。 管 
理 层 期 望 报告 能 有 多 种 用 途 ， 包 括 测量 和 维护 客户 服务 、 吸 引 新 客户 并 防止 客户 流失 。 同 样 重 要 
地 ，DirecTV 的 技术 团队 想 要 减少 当前 数据 管理 系统 加 载 在 CPU 上 的 资源 工作 量 。 

虽然 数据 仓库 的 早期 实施 能 很 好 地 满足 公司 的 需求 ， 但 随 着 业务 的 不 断 增长 ， 已 经 快 达到 这 种 
实施 的 极限 。 在 动态 数据 仓库 解决 方案 出 现 之 前 ， 公 司 每 晚 用 批 处 理 模 式 将 数据 从 服务 器 中 提取 出 
来 ， 这 是 一 个 占用 很 长 时 间 并 耗 尽 系统 资源 的 过 程 。 上 传 每 日 批量 数据 至 数据 仓库 ， 早 已 成 为 (对 
很 多 公司 来 说 ， 现 在 仍然 是 ) 一 种 标准 程序 。 如 果 公司 业务 竞争 不 包括 数据 实时 性 ， 那 么 这 样 的 每 
日 上 传 程序 也 许 很 适合 公司 的 业务 。 不 幸 的 是 ， 这 不 是 DirecTV 的 情况 。 在 高 度 动态 的 消费 市 场 中 ， 
为 了 管理 巨大 的 呼叫 量 ，DirecTV 的 业务 用 户 需要 从 客户 呼叫 中 实时 获取 数据 。 

解决 方案 

首先 ， 新 型 数据 仓库 系统 的 目标 是 至 少 每 天 将 最 新 数据 发 送 到 呼叫 中 心 ， 但 是 一 旦 整合 解 


22 


第 2 章 数据 仓库 


决 方案 实现 后 ， 目 标 将 下 降 至 每 15 分 钟 更 新 数据 。“ 我 们 期 望 不 同城 市 间 的 广域网 中 的 数据 延迟 
小 于 15 分 钟 , Gustafson 解释 道 。 

项 目的 第 二 个 目标 是 简化 改变 数据 的 采集 ， 以 减少 开发 者 所 需要 的 维护 工作 量 。 尽 管 多 个 

台 间 的 数据 源 不 是 初始 需求 的 一 部 分 ， 但 当 DirecTV 看 到 了 GoldenGate 集成 系统 的 能 力 后 ， 这 
点 将 会 改变 。GoldenGate 实现 了 一 系列 数据 管理 系统 和 平台 的 集成 。DirecTV 包括 Oracle, HP 
NonStop 平台 、IBM 的 DB2 系统 和 Teradata 数据 仓库 ，Gustafson 说 :“ 我 们 运用 GoldenGate 不 是 为 
了 集成 为 一 个 系统 ， 这 点 仍然 吸引 着 我 们 ， 我 们 正在 外 购 通话 记录 ， 但 是 也 在 外 购 NonStop 和 其 
他 数据 源 。 我 们 认为 如 果 需 要 购买 一 种 工具 来 处 理 这 些 工 作 ， 和 希望 它 能 在 所 有 我 们 公司 支持 的 
平台 上 运行 。 

结果 

随 着 系统 功能 的 明确 , .其 潜在 的 商业 利益 也 开始 显现 。 正 如 Gustafson 所 说 的 :“ 一 旦 建立 了 
数据 仓库 ， 我 们 就 会 获得 了 一 个 能 让 我 们 衡量 实时 流失 的 巨大 商业 利益 ,” 他 还 说 道 : “我 们 曾 
说 过 ， 既 然 我 们 已 经 有 了 所 有 的 实时 报告 ， 那 么 我 们 能 用 这 些 报告 来 做 什么 呢 ?” 我 们 曾经 的 一 
个 做 法 是 利用 这 些 数据 来 针对 特定 的 客户 ， 以 减少 流失 。 借 助 他 们 手头 的 最 新 数据 ， 呼 叫 中 心 的 
销售 人 员 可 以 同 当 天 几 个 小 时 内 刚刚 请 求 取消 业务 的 顾客 进行 联系 ， 并 提供 一 项 新 的 业务 以 留 
住 这 名 顾客 。 一 旦 技术 组 安装 好 这 些 必要 的 报表 工具 ， 那 么 我 们 就 可 以 针对 特定 顾客 采取 促销 
活动 以 保留 客户 ， 并 优先 为 他 们 提供 特殊 服务 。 而 这 一 活动 也 开始 奏效 , “自从 我 们 实施 了 这 一 
方案 后 ， 公 司 的 客户 流失 情况 已 经 有 所 降低 ,” Gustafson W: “分 析 家 们 已 经 开始 称赞 我 们 在 这 
一 领域 所 取得 的 成 绩 ， 而 这 一 切 多 半 要 归功 于 我 们 所 采取 的 及 时 反馈 活动 ， 可 以 在 当天 为 他 们 
发 出 新 的 邀请 。” 

我 们 建立 系统 的 男 一 个 目的 是 记录 顾客 的 服务 日 志 ， 实 现 对 现场 报告 的 重复 技术 问题 的 回 
复 报告 。 这 使 得 管理 层 能 更 好 地 对 现场 报告 做 出 评估 和 反馈 ， 从 而 提高 服务 质量 、 减 少 技 术 人 员 
开支 。 实 时 呼叫 中 心中 生成 的 报告 还 可 基于 日 常 的 呼叫 量 来 控制 中 心 的 工作 负载 量 。 借 助 这 些 
数据 ， 管 理 层 可 以 通过 日 常 呼叫 量 和 历史 平均 值 的 对 比 来 进行 例外 报告 。 

而 系统 在 另 一 个 业务 中 心 的 使 用 情况 ， 是 我 们 之 前 未 曾 预料 到 的 。 实 时 业务 报告 在 此 不 仅 
用 于 订单 管理 ， 还 用 于 欺诈 检测 。 通 过 获取 新 顾客 的 实时 订单 信息 ， 欺 诈 管理 专家 可 以 对 这 些 数 
据 进行 检测 ， 以 排除 坎 诈 订单 。Gustafson 指出 : “这 真是 帮 了 我 们 大 忙 ， 它 减少 了 我 们 的 劳动 力 
和 生产 成 本 。” 


开篇 场景 的 问题 


1. 为 什么 建立 一 个 实时 数据 仓库 对 于 DirecTV 如 此 重要 ? 

2. DirecTV 在 建立 集成 的 实时 数据 仓库 时 所 面临 的 挑战 是 什么 ? 

3. 以 DirecTV 的 具体 实施 为 基础 ， 说 明 传统 数据 仓库 和 实时 数据 仓库 的 主要 区 别 。 

4. 采用 实时 数据 仓库 而 非 传 统 的 数据 仓库 ，DirecTV 能 获得 什么 样 的 战略 优势 ? 

5. 你 认为 什么 原因 导致 像 DirecTV 这 样 的 大 型 组 织 不 能 建立 一 个 合适 的 数据 仓库 。 

我 们 从 开篇 场景 中 能 够 学 到 什么 

开篇 场景 前 明了 实施 实时 数据 仓库 的 战略 价值 ， 以 及 其 对 商务 智能 技术 的 支持 。DirecTV 能 
够 将 其 数据 资产 分 布 在 整个 企业 内 部 ， 让 它 的 知识 人 员 无 论 何 时 何 地 ， 只 要 需要 就 能 使 用 它 。 数 
据 仓库 将 组 织 内 部 多 个 数据 库 集 合成 一 个 整体 ， 形 成 了 单一 的 公司 真实 版 本 ， 将 所 有 的 员工 放 
在 了 相同 的 页 面 上 。 此 外 ， 数 据 仓库 还 满足 了 决策 者 对 实时 数据 的 需求 ， 他 们 可 以 在 决策 中 使 用 
数据 仓库 ， 提 高 了 公司 在 产业 中 的 战略 竞争 优势 。 这 个 故事 给 我 们 一 个 重要 收获 就 是 一 一 一 个 
实时 的 、 企 业 级 的 数据 仓库 同 企业 战略 上 决策 支持 的 结合 将 会 为 企业 带 来 显著 的 利益 (财务 及 
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其 他 ) 。 
来 源 : L. L. Briggs,“DirectTV Connects with Data Integration Solution,” Business Intelligence Journal, Vol. 14, No. 1 ,2009, 
pp. 14 ~ 16; “DirecTV Enables Active Data Warehousing with GoldenGate’ s Real-Time Data Integration Technology ,” 
Information Management Magazine , January 2008 ; directv. com. 


2.1 数据 仓库 的 定义 和 概念 

.实时 数据 仓库 (Real-time Data Warehousing，RDW ) 、 决 策 支持 系统 (Decision Support Sys- 
tem, DSS) 以 及 商务 智能 技术 综合 运用 是 一 种 重要 的 梳理 业务 流程 的 手段 。 在 开篇 场景 中 ,我 
们 介绍 了 实时 数据 仓库 支持 决策 的 一 个 真实 情景 ， 即 通过 分 析 来 自 不 同 渠 道 的 海量 数据 来 提供 
支持 关键 流程 的 快速 解决 方案 。 借 助 一 种 易 理 解 的 形式 存储 于 数据 仓库 中 的 真实 数据 扩展 了 
DirecTV 的 革新 业务 流程 。 通 过 实时 数据 仓库 ，DirecTV 可 以 浏览 公司 的 业务 实时 状态 并 快速 识 
别 问 题 所 在 ， 而 这 也 正 是 分 析 解 决 这 些 问 题 的 首要 步骤 。 除 此 之 外 ， 客 户 可 以 获取 他 们 的 实时 订 
阅 、 电 视 服务 以 及 其 他 账户 的 信息 ， 也 就 是 说 ， 系 统 同时 还 具备 了 显著 的 竞争 优势 。 

决策 的 制定 需要 关于 当前 运作 、 趋 势 和 变化 的 明确 、 可 靠 的 信息 ， 而 数据 往往 是 分 散 于 不 同 的 
操作 系统 下 ， 所 以 管理 者 常常 是 至 多 基于 部 分 信息 来 做 出 所 谓 的 决策 。 数 据 仓库 通过 访问 、 整 合 、 
组 织 关 键 业务 数据 使 其 一 致 、 可 靠 、 及 时 和 可 用 ， 排 除了 障碍 ， 使 得 数据 实现 了 随时 随地 地 取 用 。 


2.1.1 什么 是 数据 仓库 


简单 来 说 ， 数 据 仓库 (Data Warehouse, DW) 就 是 一 个 支持 决策 制定 的 数据 池 ， 它 同时 还 
是 一 个 关乎 整个 组 织 的 所 有 管理 者 潜在 兴趣 的 当前 数据 和 历史 数据 的 存储 库 。 数 据 通常 以 一 种 
易于 分 析 业 务 动态 的 形式 来 构建 ， 例 如 在 线 分 析 处 理 、 数 据 控 掘 、 查 询 、 报 表 和 其 他 决策 支持 应 
用 。 数 据 仓 库 通 常 是 一 个 面向 主题 的 、 集 成 的 、 非 易 失 的 且 随 时 间 而 变 的 数据 集合 ， 用 来 支持 管 
理 者 的 决策 。 


2.1.2 数据 仓库 的 特点 


了 解数 据 仓库 的 一 个 基本 方法 就 是 了 解 它 的 基本 特点 (Inmon, 2005); 

。 面向 主题 的 ”面向 主题 提供 了 一 种 更 易 理 解 的 数据 组 织 方式 ， 数 据 以 某 个 具体 的 主题 来 
组 织 的 ， 例 如 销售 、 生 产 或 者 顾客 ， 每 个 主题 下 只 包括 决策 支持 的 相关 信息 。 面 向 主题 
使 得 用 户 可 以 决定 他 们 的 业务 展现 形式 ， 以 及 为 什么 如 此 展现 。 数 据 仓库 与 操作 性 的 数 
据 库 有 很 大 的 不 同 ， 后 者 大 多 是 以 产品 为 导向 的 ， 并 且 常 常 由 于 业务 的 处 理 而 需要 更 新 
数据 库 。 

集成 的 ”集成 同 面向 主题 密切 相关 。 数 据 仓 库 需 要 将 多 渠道 的 数据 以 一 致 的 形式 来 存 
储 ， 并 解决 由 于 集成 而 出 现 的 诸如 命名 冲突 和 数据 类 型 差异 性 的 问题 。 数 据 仓 库 是 完全 
集成 的 。 

随时 间 而 变 的 (时间 序列 ) ”数据 仓库 需要 定期 维护 历史 数据 。 除 非 是 在 实时 数据 仓 
库 中 ， 否 则 这 些 数 据 并 不 要 求 提供 实时 状态 。 它 们 检测 趋势 、 偏 差 以 及 预报 和 比较 的 
长 期 关系 ， 从 而 支持 决策 。 每 个 数据 仓库 都 有 时 态 性 ， 时 间 是 所 有 数据 仓库 都 必须 支 
持 的 一 个 重要 维度 。 在 数据 仓库 中 ， 数 据 分 析 要 包括 不 同时 间 点 的 分 析 ， 如 日 、 周 以 
及 月 等 。 

。 非 易 失 性 数据 一 旦 录入 数据 仓库 后 ， 用 户 就 不 能 对 其 进行 更 改 和 更 新 。 过 时 的 数据 将 

会 被 丢弃 ， 而 变化 后 的 则 作为 新 数据 被 记录 下 来 。 
上 述 的 这 些 特点 极 大 地 提高 了 数据 仓库 的 数据 存 取 能 力 ， 除 此 之 外 ， 数据 仓 库 还 有 一 些 别 
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的 特点 : 

。 基于 网 络 ”数据 仓库 通常 被 设计 为 基于 网 络 应 用 提供 高 效 的 运算 环境 。 
关系 的 /多 维 的 ”数据 仓库 常常 是 基于 关系 架构 或 是 多 维 架构 ， 最 近 的 一 个 多 维 架 构 的 
调查 是 由 Romero 和 Abelld 于 2009 年 发 现 的 。 
客户 端 /服务 器 ”数据 仓库 运用 客户 端 /服务 器 架构 易于 终端 用 户 的 访问 。 
实时 ”最 新 的 数据 仓库 已 经 实现 了 提供 实时 或 者 动态 的 数据 访问 和 分 析 能 力 (Basu 
2003, Bonde and Kuckuk 2004) 。 y 
THE 数据 仓库 通过 元 数据 ， 即 数据 的 数据 ， 来 描述 数据 的 组 织 方式 以 及 如 何 有 效 地 
使 用 它们 。 

尽管 数据 仓库 是 数据 的 集合 ， 但 从 字面 上 来 说 ， 数 据 仓库 就 是 一 个 涉及 全 过 程 的 东西 
(Watson ，2002) 。 数 据 仓 库 是 一 门将 它 的 应 用 结果 用 于 支持 决策 ， 并 人 允许 随时 查询 业务 信息 ， 同 
时 还 具备 对 于 业务 的 洞察 力 的 学 科 。 数 据 仓库 有 3 种 主要 类 型 ， 分 别 是 数据 集 市 、 业 务 数据 存储 
(Operational Data Store, ODS) 和 企业 数据 仓库 (Enterprise Data Warehouse, EDW), FMRI 
介绍 这 3 种 类 型 的 数据 仓库 以 及 元 数据 。 


2.1.3 ”数据 集 市 


尽管 数据 仓库 是 将 数据 库 与 整个 企业 结合 起 来 ， 但 数据 集 市 相对 来 说 通常 较 小 ， 并 且 关 注 
于 某 一 个 特别 的 主题 或 部 门 。 数 据 集 市 是 数据 仓库 的 一 个 子 集 ， 通 常 包 括 一 个 单独 的 主题 域 ， 如 
销售 市 场 、 企 业 运营 等 。 数 据 集 市 可 以 是 独立 的 也 可 以 是 非 独立 的 (归属 于 某 一 数据 仓库 ) 。 非 
独立 的 数据 集 市 是 由 数据 仓库 直接 生成 的 一 个 子 集 ， 它 具备 稳定 的 数据 模型 和 提供 高 效 数据 的 
优势 。 在 数据 仓库 的 基础 上 ， 非 独立 的 数据 集 市 可 以 作为 一 个 企业 范围 内 的 数据 模型 而 存在 ， 它 
可 以 确保 数据 仓库 终端 使 用 者 所 浏览 数据 的 一 致 性 。 数 据 仓 库 的 高 成 本 限制 了 它 在 大 公司 的 应 
用 前 景 ， 作 为 替代 ， 更 多 的 公司 开始 倾向 于 选择 独立 的 数据 集 市 ， 这 是 一 种 低 成 本 、 低 版 本 的 数 
据 仓 库 。 独 立 的 数据 集 市 可 以 被 看 做 是 支持 某 项 业务 决策 或 者 某 个 部 门 的 小 型 数据 仓库 , 但 是 
它 的 数据 源 并 不 是 企业 数据 仓库 。 


2.1.4 ”业务 数据 存储 


业务 数据 存储 提供 了 一 种 较 新 的 客户 信息 存储 模式 。 这 类 数据 库 通常 作为 某 一 个 数据 仓库 
中 的 临时 决策 域 。 不 同 于 数据 仓库 的 静态 存储 ，ODS 中 的 内 容 在 整个 业务 运营 过 程 中 是 随时 更 
新 的 。ODS 常常 被 用 于 涉及 核心 应 用 的 短期 决策 ,个 别 情况 下 还 会 与 企业 数据 仓库 结合 ， 用 于 
中 期 或 长 期 决策 。 举 例 来 说 ， 数 据 仓库 是 长 期 记忆 因为 它 存 储 的 是 永久 信息 ， 而 ODS 则 是 短期 
记忆 ， 因 为 它 只 存储 最 近 的 信息 。ODS 将 多 个 系统 中 的 信息 集成 起 来 ， 提 供 近 实时 性 的 、 可 变 
集成 的 当前 数据 。 而 这 种 数据 提取 、 转 换 和 加 载 过 程 和 数据 仓库 的 做 法 是 一 样 的 。 当 操作 性 数据 
需要 多 维 化 分 析 时 ， 操 作 集 市 (open marts) 就 会 形成 ， 而 这 些 操作 性 数据 则 是 来 源 于 ODS (Im- 
hoff，2001 ) 。 


2.1.5 企业 数据 仓库 


企业 数据 仓库 是 支持 整个 企业 决策 的 大 型 数据 仓库 ， 这 也 正 是 我 们 之 前 提 到 的 DirectTV 公 
司 所 建立 的 数据 仓库 。 大 范围 特性 使 得 它 将 不 同 来 源 的 数据 标准 化 ， 支 持 商务 智能 和 决策 支持 
的 有 效 运 作 。EDW 通常 被 用 于 为 多 种 决策 支持 系统 提供 数据 ， 包 括 客 户 关系 管理 、 供 应 链 管 理 、 
业务 绩效 管理 、 业 务 活动 监控 (Business Activity Monitoring，BAM) 、 产 品 生命 周期 管理 (Product 
Lifecycle Management，PLM)、 收 入 管理 系统 以 及 知识 管理 系统 (Knowledge Management System, 
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KMS) 。 应 用 案例 2. 1 具体 介绍 了 正确 设计 和 实施 下 的 企业 数据 仓库 将 为 公司 带 来 的 巨大 利益 。 








应 用 案例 2. 1 ”企业 数据 仓库 实现 成 本 节约 、 提高 流程 效率 


NCR 成 立 于 1884 年 俄 亡 俄 州 的 代 顿 市 ， 至 今 已 是 一 家 市 值 56 亿美 元 的 纽约 证 券 交易 所 
上 市 公司 。 公 司 为 全 球 零 售 、 人 金融、 保险、 通信 、 制 造 、 旅 游 及 运输 各 领域 提供 技术 解决 方 
案 ， 包 括 商店 自动 化 、ATM 机 、 咨 询 服务 、 媒 体 产 品 以 及 硬件 技术 。 

1991 年 NCR 被 AT&T 收购 后 ，NCR 致力 于 开发 以 区 域 和 产品 为 中 心 的 自主 架构 ， 每 个 
区 域 可 以 自行 决定 产品 和 服务 的 提供 、 市 场 营销 策略 、 产 品 定价 、 业 务 流 程 的 发 展 以 及 报告 
标准 。 在 这 一 模式 下 ， 整 个 公司 的 运营 状况 被 数 个 财务 和 运营 系统 所 掌控 ， 而 非 仅 仅 针对 某 
一 企业 。 

1997 年 ，NCR 脱离 AT&T， 再 次 成 为 一 家 独立 公司 ,每 天 公司 运营 都 会 有 大 量 的 资金 损 
失 。 资 产 分 拆 使 得 NCR 忙于 业务 流程 重 整 以 维持 并 增强 其 在 全 球 市 场 的 竞争 地 位 ， 逐 渐 成 长 
为 一 家 真正 的 全 球 企业 。 

全 球 化 的 目标 使 得 NCR 开始 逐步 从 原来 以 硬件 为 核心 的 区 域 中 心 模式 向 集成 化 的 以 解决 
方案 为 核心 的 企业 架构 转变 。 为 了 实现 这 一 转变 ，NCR 就 必须 使 其 店面 变 得 全 球 化 、 中 心 化 
和 集成 化 。 只 有 这 样 ， 才 能 在 其 业务 流程 重 整 的 过 程 中 实现 有 效 的 控制 。 企 业 数 据 仓库 在 这 
一 阶段 对 于 NCR 极为 重要 ， 并 对 其 在 之 后 数 年 内 建立 一 个 新 的 全 球 化 、 单 实例 的 ERP 系统 
也 将 有 重要 影响 。 

企业 数据 仓库 实施 的 重任 由 NCR 公司 的 财务 部 门 和 全 球 客户 服务 部 门 (Worldwide Cus- 
tomer Services，WCS) 共同 负责 。 这 两 个 部 门下 的 业务 团队 分 别 负责 财务 信息 的 传送 和 地 理 
信息 系统 (Global Information System，GIS) ， 它 们 和 EDW 团队 密切 合作 ， 以 保证 信息 技术 能 
够 理解 公司 新 架构 下 的 业务 需求 。 公 司 选取 了 Teradata 数据 仓库 进行 企业 数据 仓库 的 构建 ， 
一 方面 是 由 于 它 的 可 扩 性 ， 以 及 对 非 结 构 化 查询 和 高 并 发 处 理 的 自 适 应 性 ， 另 一 方面 则 是 由 
于 其 相对 低廉 的 维护 费用 。 

EDW 的 巨大 潜能 迅速 在 公司 中 体现 出 来 ， 并 带动 了 NCR 财务 部 门 组 织 架构 和 业务 流程 
的 相应 变动 ， 财 务 部 门 的 财务 循环 周期 从 原来 的 14 天 减少 到 了 6 天， 而 全 球 化 的 报告 标准 也 
得 以 完全 建立 。 在 WCS 部 门 中 ，EDW 的 建立 使 得 个 人 客户 的 收益 分 析 以 及 随 之 的 计划 政 善 
变 得 可 行 。 不 仅 是 以 上 两 个 方面 ，EDW 的 巨大 潜能 还 体现 在 销售 和 市 场 、 运 营 和 库存 管理 ， 
甚至 是 人 力 资源 中 。ERP 的 操作 标准 化 以 及 客户 服务 中 的 动态 改善 令 NCR 的 未 来 变 得 更 为 明 
BA, NCR 已 逐步 成 为 一 个 全 面 的 全 球 业 务 解决 方案 提供 商 。 

Ry Lik EDW 所 带 来 的 丰厚 回报 外 ，EDW 不 仅 为 公司 收回 了 预期 的 项 目 成 本 ， 还 将 带 
来 更 多 的 收入 ,其 中 包括 每 年 节约 1 亿美 元 的 库存 成 本 ，2 亿美 元 应 收 账 款 的 持续 减少 ， 每 
年 5 000 万 美元 财务 费用 的 减少 ， 以 及 在 WCS 部 门 最 初 实施 EDW 的 5 年 中 2200 万 美元 的 成 
本 节约 。 

除了 成 本 的 节约 和 业务 流程 的 高 效 化 外 ， 还 需 考虑 到 更 多 EDW 所 能 做 的 和 其 带 来 的 重 
要 价值 ， 其 中 最 有 战略 意义 的 是 用 EDW 来 推动 增长 。 

尽管 EDW 项 目 并 不 是 创造 利润 的 机 会 ， 相 反 它 需要 资金 的 筹集 ， 然 而 它 为 公司 所 节省 
的 成 本 费用 将 远 远 超过 实施 过 程 中 的 花费 。 而 一 旦 EDW 成 功 实施 后 ， 随 着 公司 的 成 长 ， 它 
将 带 来 源源 不 断 的 利润 。 以 下 是 EDW 为 NCR 公司 带 来 定量 和 定性 利润 的 详尽 说 明 : 
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定性 利润 

© 财务 循环 周期 从 原来 的 14 天 减 到 6 天 

© 提高 了 企业 报告 标准 

© 实现 个 人 客户 的 效益 分 析 以 及 随 之 的 改善 计划 

o 提供 持续 的 全 球 报 告 流程 

© 改进 及 时 运送 

© 提高 库存 管理 能 力 ， 减 少 货物 过 时 风险 

定量 利润 

© 每 年 5000 万 美元 财务 控制 成 本 的 减少 

© 2 亿美 元 应 收 账 款 的 持续 减少 ， 转 化 为 每 年 2 000 万 美元 应 收 账 款 持 有 成 本 的 减少 

© 1 亿美 元 产 成 品 存货 的 持续 减少 ， 相 当 于 每 年 1 000 万 美元 库存 持 有 成 本 的 减少 

© 在 WCS 部 门 最 初 实施 EDW 的 5 年 中 2200 万 美元 的 成 本 节约 ， 包 括 自 动向 客户 提供 服 
务 等 级 协议 (Service Level Agreement, SLA), 人员 减少 ， 以 及 客户 资料 维护 费用 的 
降低 。 

供应 链 管理 改进 带 来 的 1000 万 美元 的 利润 

由 于 财务 和 会 计 报 告 中 人 员 的 减少 ，5 年 内 610 万 美元 净 现 值 费 用 的 减少 

350 万 美元 通信 费用 的 减少 

由 于 ERP 转型 费用 的 减少 节约 了 300 万 美元 

由 于 Oracle 10.7 升级 为 Oraclell1 、Oracle 11i， 首 次 实现 了 报表 功能 ， 节 约 了 170 万 美元 
的 报表 开发 费用 


ÆW: Teradata, “Enterprise Data Warehouse Delivers Cost Savings and Process Efficiencies,” teradata. com/t/resources/ 
case- studies/ NCR- Corporation- eb4455/ ( accessed June 2009). 














2.1.6 元 数据 


元 数据 (metadata) 是 数据 的 数据 (Sen, 2004; Zhao 2005 ) 。 元 数据 描述 了 数据 的 结构 和 部 
分 意义 ， 因 此 有 助 于 数据 的 有 效 或 无 效 使 用 。Mehra (2005) 文献 指出 ， 极 少 的 组 织 真 正 理 解 元 
数据 ， 而 极 少 理解 元 数据 的 组 织 知 道 如 何 设计 并 执行 元 数据 策略 。 就 用 法 而 言 ， 元 数据 通常 被 定 
义 为 技术 元 数据 或 者 业务 元 数据 。 模 式 是 另外 一 种 浏览 元 数据 的 方式 ， 通 过 模式 浏览 ， 可 以 知道 
语法 元 数据 (也 就 是 描述 数据 语法 的 数据 ) 和 结构 元 数据 (也 就 是 描述 数据 结构 的 数据 ) 以 及 
语义 元 数据 (也 就 是 描述 某 个 特定 域 的 数据 合 义 的 数据 ) 的 不 同 。 

接 下 来 ， 我 们 将 解释 传统 元 数据 模式 以 及 如 何 通过 一 个 全 面 的 元 数据 集成 方法 实现 有 效 的 
元 数据 策略 。 这 些 方法 包括 本 体 论 和 元 数据 注册 ， 企 业 信 息 集 成 (Enterprise Information Integra- 
tion ，EI) ， 数 据 提取 、 转 换 和 加 载 以 及 面向 服务 的 架构 (Service-Oriented Architecture, SOA), 
有 效 性 、 可 扩展 性 、 重 用 性 、 互 用 性 、 效 率 和 性 能 、 进 化 、 权 限 、 灵 活性 、 隔 离 、 用 户 交互 、 版 
本 、 多 样 性 以 及 低 维 护 成 本 ， 这 些 都 是 建立 一 个 成 功 的 元 数据 驱动 的 企业 的 成 功 要 素 。 

Kassam (2002) 文献 提出 ， 业 务 元 数据 包括 能 提高 我 们 对 传统 数据 (也 就 是 结构 数据 ) 理 
解 力 的 信息 。 元 数据 的 首要 目的 是 描述 数据 的 内 容 特征 ， 也 即 是 说 ， 它 要 提供 知识 建立 所 需要 的 
丰富 信息 。 尽 管 业务 元 数据 的 效率 较 差 ， 但 却 比 结构 数据 更 具 潜 能 。 元 数据 的 内 容 对 于 所 有 的 用 
户 来 说 不 需 是 相同 的 。 在 某 些 情况 下 ， 元 数据 有 助 于 数据 和 信息 转换 为 知识 。Bell (2001) 的 文 
献 认为 元 数据 为 元 商业 架构 奠定 了 基础 ，Tannenbaum (2002) 的 文献 描述 了 如 何 识别 元 数据 的 
需求 ，Vaduva and Vetterli (2001) 文献 概要 介绍 了 数据 仓库 中 的 元 数据 管理 ，Zhao (2005) 文献 
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描述 了 元 数据 管理 成 熟 度 的 5 个 阶段 ， 分 别 是 随机 状态 、 发 现 、 管 理 、 优 化 和 自动 化 。 这 5 个 级 
别 有 助 于 组 织 理解 如 何 使 用 以 及 最 好 地 使 用 元 数据 。 

元 数据 的 设计 、 建 立 和 使 用 一 一 即 描述 和 总 结 数 据 的 数据 一 一 以 及 元 数据 标准 可 能 涉及 的 
伦理 问题 。 这 些 问 题 主要 产生 于 元 数据 中 信息 的 收集 和 归属 ， 包 括 信息 的 隐私 性 ， 以 及 在 设计 、 
收集 和 分 离 期 中 形成 的 知识 产权 。 这 方面 更 详细 的 内 容 可 以 参见 (Brody, 2003), 


2. 1 节 复 习题 


1. 什么 是 数据 仓库 ? 

2. 数据 仓库 与 数据 库 相 比 有 什么 不 同 ? 

3. 什么 是 业务 数据 存储 ? 

4. 请 说 出 数据 集 市 、 业 务 数据 存储 和 企业 数据 仓库 的 不 同 。 
5. 阐述 元 数据 的 重要 性 。 


2.2 数据 仓库 流程 概述 


不 管 是 私人 组 织 还 是 公共 组 织 ， 都 会 以 某 种 增长 速度 持续 收集 数据 、 信 息 和 知识 ， 并 将 它们 存 
储 于 计算 机 系统 中 。 而 这 些 数据 和 信息 的 维护 和 使 用 将 会 变 得 极为 复杂 ， 特 别 是 涉及 可 扩展 性 问 
题 。 除 此 之 外 ， 由 于 网 络 连接 尤其 是 因特网 的 可 靠 性 和 可 用 性 的 改善 ， 用 户 访问 信息 的 需求 也 在 逐 
步 增加 。 在 多 个 数据 库 运 作 的 情况 下 ， 是 否 集成 为 一 个 数据 仓库 都 变 得 极为 困难 ， 需 要 相当 专业 
的 知识 ,但 其 带 来 的 好 处 将 远 远 超过 其 花费 的 成 本 ,具体 参见 本 章 开篇 场景 和 应 用 案例 2. 2。 





应 用 案例 2.2 数据 仓库 支持 First American 公司 企业 战略 


随 着 从 传统 银行 方法 向 以 CRM 为 中 心 的 战略 转型 ，First American 公司 逐步 从 1990 FF 
损 6 000 万 美元 的 阴影 中 走出 来 ， 并 在 10 年 后 成 为 了 创新 型 金融 服务 的 领军 者 。 这 一 战略 的 
成 功 实施 离 不 开 VISION 数据 仓库 的 帮助 ，VISION 数据 仓库 中 存储 着 公司 客户 行为 的 大 量 信 
息 ， 如 使 用 中 的 产品 、 购 买 偏好 以 及 客户 价值 定位 。VISION 数据 仓库 提供 了 下 述 功能 : 
© 识别 前 20% 的 有 价值 客户 
识别 40% ~50% 的 无 价值 客户 
客户 保有 策略 
低 成 本 分 配 渠 道 
客户 关系 扩张 策略 
信息 流 重新 设计 
通过 数据 仓库 访问 信息 ， 使 得 渐进 性 和 突进 性 的 改变 成 为 可 能 。First American 公司 由 此 
获得 了 突进 性 的 改变 ,进入 其 金融 服务 的 “幸福 的 第 16 年 ”。 
IR; Based on B. L. Cooper,H. J. Watson,B. H. Wixom, and D. L. Goodhue,“Data Warehousing Supports Corporate Strat- 
egy at First American Corporation,” MIS Quarterly, Vol. 24, No.4, 2000, pp. 547 - 567; and B. L. Cooper, 


H. J. Watson, B. H. Wixom, and D. L. Goodhue, “ Data Warehousing Supports Corporate Strategy at First American 
Corporation ,” SIM International Conference, Atlanta, August 15 — 19 , 1999. 














多 数组 织 都 需要 建立 数据 仓库 ， 来 存储 大 量 时 序数 据 支 持 决策 。 这 些 来 自 内 部 、 外 部 不 同 来 
源 的 数据 经 过 数据 清洗 和 组 织 以 满足 组 织 的 需要 。 一 旦 这 些 数据 存储 于 数据 仓库 后 ， 就 可 以 建 
立 服 务 于 某 一 特定 域 或 部 门 的 数据 集 市 。 或 者 ， 也 可 以 根据 需要 ， 先 建立 数据 集 市 ， 然 后 将 其 集 
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成 到 企业 数据 仓库 中 。 虽 然 ， 数 据 集 市 不 能 被 二 次 开发 ， 但 是 数据 已 经 加 载 到 计算 机 中 或 者 维持 
初始 状态 ， 用 于 商务 智能 工具 的 操作 。 
图 2-1 展示 了 数据 仓库 的 基本 框架 ， 以 下 是 数据 仓库 流程 的 一 些 重要 概念 : 
。 数据 源 ”数据 往往 来 自 于 多 个 独立 的 “遗留 ”操作 系统 中 ， 或 者 一 些 外 部 数据 提供 商 ， 
如 美国 统计 局 ， 也 有 可 能 来 自在 线 交 易 处 理 系 统 或 者 ERP 系统 。 而 来 自 Web 日 志 中 的 
Web 数据 也 可 以 组 建 数据 仓库 。 
。 数据 提取 和 转换 “使 用 定制 或 者 商业 ETL 软件 实现 数据 的 提取 和 正确 的 转换 。 
。 数据 加 载 数据 被 加 载 到 数据 准备 区 中 ， 进 行 数据 转换 和 清洗 ， 之 后 才 可 以 被 加 载 到 数 
据 仓 库 或 者 数据 集 市 中 。 
综合 数据 库 从 本 质 上 来 说 ,综合 数据 库 是 指 由 企业 数据 仓库 提供 各 项 决策 所 需 的 不 同 
来 源 的 概括 和 详细 数据 。 
。 元 数据 元 数据 需要 定期 维护 ， 以 供 信息 技术 人 员 和 用 户 进行 评估 。 元 数据 包括 数据 以 
及 组 织 规则 相关 的 软件 程序 ， 用 于 组 织 数 据 概 要 ， 以 便于 索引 和 查询 ， 尤 其 是 利用 网 络 
工具 。 
中 间 件 ”中 间 件 为 数据 仓库 中 的 数据 访问 提供 接口 。 技 术 用 户 ， 如 分 析 师 可 以 通过 编写 
SQL 查询 语句 ， 而 其 他 人 则 可 借助 成 熟 的 查询 环境 ， 如 Business Objects 来 访问 数据 。 业 
务 人 员 可 以 使 用 多 种 前 端 应 用 程序 与 存储 在 知识 库 中 的 数据 进行 数据 交互 ， 包 括 数据 挖 
掘 、OLAP、 报 表 工 具 以 及 数据 可 视 化 工具 。 





| 无 数据 集 市 的 情况 
数据 源 一 


























图 2-1 数据 仓库 框架 概览 


2. 2 节 复 习题 


1. 描述 数据 仓库 流程 。 
2. 描述 数据 仓库 的 重要 组 件 。 
3. 辨别 中 间 件 在 数据 仓库 中 所 承担 的 角色 。 


2.3 数据 仓库 架构 
数据 仓库 的 基本 信息 系统 架构 有 很 多 种 。 大 体 来 说 ， 这 些 架 构 通 常 是 客户 /服务 器 架构 或 者 
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多 层 架 构 ， 其 中 最 多 见 的 是 二 层 和 三 层 架 构 ， 如 图 2-2 和 图 2-3 所 示 ， 但 有 时 也 会 出 现 单 层 架 
构 。 多 层 架 构 可 以 满足 大 规模 、 高 性 能 要 求 的 信息 系统 的 需求 ， 例 如 数据 仓库 。 为 了 了 解数 据 仓 
库 中 多 层 架构 的 具体 应 用 ，Hoffer et al. (2007) 区 分 这 些 架构 ， 将 数据 仓库 划分 为 3 个 部 分 : 

1. 数据 仓库 本 身 ， 包 括 数 据 和 相关 联 的 软件 。 

2. 数据 采集 Gam) 软件 ， 用 于 从 遗留 系统 和 外 部 数据 源 中 提取 数据 ， 合 并 和 汇总 后 ， 再 
将 它们 加 载 到 数据 仓库 中 。 . 

3. 客户 端 (前 端 ) 软件 ， 如 决策 支持 系统 、 商 务 智能 系统 、 业 务 分 析 引 擎 ， 人 允许 用 户 对 数 
据 仓库 进行 数据 存 取 和 数据 分 析 。 

在 三 层 架构 中 ,数据 和 用 于 数据 采集 的 软件 是 一 层 (也 就 是 数据 库 服 务 器 ) ， 数 据 仓 库 是 另 
一 层 ， 第 三 层 包括 决策 支持 系统 、 商 务 智 能 系统 、 业 务 分 析 引 擎 等 〈 也 就 是 应 用 服务 器 ) 以 及 
客户 端 (如 图 2-2) 。 数 据 仓库 中 的 数据 被 处 理 2 次 后 ， 存 储 于 附加 的 多 维 数 据 库 中 ， 用 于 简单 
的 多 维 分 析 和 数据 显示 ， 或 者 复制 到 数据 集 市 中 。 三 层 架 构 的 优势 在 于 其 功能 的 分 离 ， 它 消除 了 
资源 的 限制 ， 使 得 数据 集 市 的 建立 变 得 更 为 简单 。 

如 图 2-3 所 示 ， 在 二 层 架 构 中 ， 决 策 支持 系统 引擎 与 数据 仓库 运行 于 同一 硬件 平台 上 ， 这 比 
三 层 架 构 更 经 济 。 但 是 ， 当 大 型 数据 仓库 需要 数据 密集 型 应 用 进行 决策 支持 时 ， 二 层 架 构 就 会 出 
现 性 能 问题 。 
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在 不 考虑 组 织 所 处 环境 和 某 些 特定 需求 的 情况 下 ， 大 多 数 人 明智 地 倾向 于 绝对 的 方法 ， 即 
认为 某 种 做 法 一 定 要 比 另 一 种 做 法 更 好 。 许 多 咨询 顾问 和 软件 供应 商 只 关注 系统 架构 的 某 一 部 
分 ， 限 制 了 它们 的 能 力 和 动机 ， 使 得 它们 无 法 按照 组 织 需要 正确 地 选择 架构 ， 这 使 得 架构 的 选择 
变 得 更 为 复杂 化 。 这 些 方面 早已 被 提出 和 研究 过 。2005 年 Ball 为 组 织 中 商务 智能 的 实施 提供 了 
决策 标准 ， 明 确 了 商务 智能 实施 中 多 维 数据 集 市 的 作用 ， 但 对 于 架构 的 具体 层次 却 未 能 做 出 定 
论 。 他 的 标准 围绕 着 数据 访问 的 空间 和 速度 需求 的 预测 问题 。 

数据 仓库 和 因特网 是 正确 管理 企业 数据 的 两 大 关键 技术 ， 它 们 的 结合 就 是 基于 WEB 的 数据 
仓库 。 如 图 2-4 所 示 ， 基 于 Web 的 数据 仓库 的 架构 是 一 种 包括 PC 客户 端 、Web 服务 器 和 应 用 服 
务 器 的 三 层 架 构 。 在 客户 端 ， 在 用 户 熟 悉 的 图 形 用 户 界面 (Graphical User Interface, GUI) F, 
需要 因特网 连接 和 最 好 支持 Java 应 用 的 网 络 浏览 器 ， 而 因特网 /内 部 网 /外 部 网 则 是 客户 端 和 服 
务 器 的 通信 媒介 。 在 服务 器 端 ， 在 数据 仓库 和 应 用 服务 器 的 支持 下 ，Web 服务 器 对 客户 端 和 服 
务 器 间 的 数据 流 和 信和 流出 进行 管理 。 基 于 Web 的 数据 仓库 在 数据 易于 访问 、 平 台独 立 性 和 低 成 
本 方面 的 优势 极为 显著 。 

(Dragoon, 2003) 文献 指出 ， 美 国 先锋 集团 ( Vanguard Group) 采用 基于 Web 的 、 三 层 架 构 
作为 企业 架构 进行 数据 的 集成 ， 向 顾客 和 内 部 用 户 提供 相同 数据 。 (Anthes, 2003) 文献 指出 ， 
希尔顿 酒店 则 借助 网 络 化 的 企业 系统 将 其 所 有 独立 的 客户 端 /服务 器 (C/S) 系统 集成 为 一 个 三 
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图 2-4 基于 Web 的 数据 仓库 的 体系 架构 


层 架 构 的 数据 仓库 。 这 一 举动 为 希尔顿 酒店 带 来 了 380 万 美元 的 投资 (不 包括 劳动 力 ) ， 波 及 到 
1 500 名 用 户 。 公 司 的 处 理 效率 (速度) 提高 了 6 倍 。 当 数据 仓库 配置 完 后 ， 预 计 每 年 会 为 希 尔 
顿 酒店 节约 450 万 美元 到 500 万 美元 。 此 外 ， 使 用 DELL 的 聚 类 技术 ， 也 就 是 并 行 信息 处 理 技术 
的 辅助 下 ， 数 据 仓 库 的 扩展 性 以 及 处 理 速 度 都 得 到 了 提高 。 

数据 仓库 的 Web 架构 与 其 他 数据 仓库 架构 的 结构 是 相似 的 。 在 数据 仓库 设计 过 程 中 ， 需 要 
确定 Web 数据 仓库 到 底 是 安装 在 交易 服务 器 上 还 是 安装 在 独立 的 服务 器 上 。 在 基于 Web 应 用 的 
实际 过 程 中 ， 页 面 的 载 人 速度 极为 重要 ， 因 此 就 要 仔细 计算 服务 器 的 承载 能 力 。 

当 决 定 使 用 何 种 架构 时 ， 还 需 考虑 以 下 几 点 : 

e 使 用 何 种 数据 库 管 理 系 统 (Database Management System, DBMS)? 大 多 数 的 数据 仓库 是 


2.3.1 


基于 关系 数据 库 管 理 系 统 (Relational Database Management System, RDBMS) 建立 的 。Or- 
acle (oracle. com), SQL Server (microsoft. com/sql/) #1 IBM 的 DB2 (306. ibm. com/ 
software/data/db2) 都 是 著名 的 关系 型 数据 库 。 这 些 产品 都 支持 C/S 架构 和 Web 架构 。 
是 否 使 用 并 行 处 理 和 分 区 ? 并 行 处 理 使 得 多 CPU 可 同时 处 理 数 据 仓库 查询 请 求 ， 并 提高 
数据 仓库 的 可 扩展 性 。 数 据 仓 库 设 计 过 程 中 要 考虑 到 数据 分 区 和 划分 标准 的 问题 ， 也 就 
是 将 数据 库 中 的 表 拆 分 为 更 小 的 表 ， 以 提高 数据 访问 的 效率 。 这 对 于 典型 的 大 数据 量 存 
储 的 数据 仓库 来 说 极为 重要 。2009 年 ，Furtado 对 数据 仓库 的 并 行 和 分 区 进行 了 最 新 研 
究 ， 而 Teradata 就 数据 仓库 的 并 行 和 处 理 进行 了 新 奇 的 尝试 。 

是 否 使 用 数据 迁移 工具 进行 数据 加 载 ? 数据 从 现行 系统 转移 到 数据 仓库 中 的 过 程 极为 繁 
琐 和 耗费 人 力 。 依 赖 于 数据 资产 的 多 样 性 和 存储 位 置 ， 数 据 迁 移 可 能 是 个 简单 的 过 程 ， 
或 者 相反 ， 需 要 1 个 月 时 间 。 迁 移 工具 的 使 用 与 否 要 由 现存 数据 资产 的 全 面 评估 结果 决 
定 ， 同 时 还 要 考虑 到 这 些 商业 工具 的 具体 性 能 。 

使 用 何 种 工具 进行 数据 检索 和 数据 分 析 ? 定期 使 用 特定 工具 对 数据 进行 定位 、 访 问 、 分 
析 、 提 取 和 转换 ， 并 最 终 加 载 到 数据 仓库 中 通常 是 重要 的 。 但 需 明确 数据 迁移 工具 究竟 
是 自行 开发 还 是 从 第 三 方 购买 ， 或 者 直接 使 用 数据 仓库 系统 中 的 自 带 工具 。 而 一 些 过 于 
复杂 和 实时 的 迁移 需求 则 需要 使 用 到 特定 的 第 三 方 ETL 工具 。 


可 选 的 数据 仓库 架构 


文献 (Golfarelli and Rizzi, 2009) 认为 ， 从 设计 角度 来 看 ， 数 据 仓库 架 构 的 最 高 级 别 可 以 分 
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为 企业 数据 仓库 设计 和 数据 集 市 设计 两 种 。 图 2-5 介绍 了 除了 单纯 的 企业 数据 仓库 和 单纯 的 数据 
集 市 之 外 ， 一 些 介 于 或 超越 传统 架构 的 基本 数据 仓库 架构 。 其 中 最 值得 注意 的 是 集中 星 形 拓 扑 
架构 (Hub-and-Spoke) 和 联合 架构 。 这 5 种 架构 分 别 是 在 由 Ariyachandra and Watson (2005, 
2006a, and 2006b) 中 提出 的 。 而 在 此 之 前 ，Sinha (2005) 已 经 研究 出 了 15 种 不 同 的 数据 仓库 
开发 方法 。 这 些 方法 分 别 来 自 核 心 技术 供应 商 、 基 础 架构 供应 商 和 信息 建 模 公 司 。 


a) 独立 数据 集 市 架构 








独立 数据 集 市 。 ”| | cee | 
(原子 数据 /汇总 数据 》 访问 和 应 用 


一 致 维度 的 数据 集 市 
(原子 数据 /汇总 数据 ) 





标准 关系 数据 
仓库 (原子 数据 ) 








(汇总 Se aE ED 


标准 关系 数据 仓库 终端 用 户 | 
(原子 数据 /部 分 汇总 数据 ) 访问 和 应 用 








现行 数据 仓库 、 公共 数据 元 素 的 终端 用 户 
数据 集 市 和 遗留 系统 逻辑 集成 /物理 集成 访问 和 应 用 


图 2-5 可 选 的 数据 仓库 架构 
来 源 : Adapted from T. Ariyachandra and H. Watson, “Which Data Warehouse Architecture Is Most Successful?” Bus- 
iness Intelligence Journal , Vol. 11, No. 1 , First Quarter ,2006 , pp. 4 -6. 


a 独立 数据 集 市 架构 ”这 一 架构 被 认为 是 最 简单 和 最 低 成 本 的 数据 仓库 架构 。 数 据 集 市 独 
立 运作 ， 为 组 织 的 各 个 单元 提供 服务 。 由 于 其 独立 性 ， 因 此 会 存在 不 一 致 数据 定义 及 不 同 的 维度 
和 度量 值 ， 而 这 使 得 跨 数据 集 市 的 数据 访问 很 难 实现 ， 原 因 是 数据 的 唯一 性 和 真实 性 无 法 保证 。 
b 数据 集 市 总 线 架构 ”数据 集 市 总 线 架构 是 独立 数据 集 市 的 可 行 替 代 品 ， 适 合 于 多 个 数据 
集 市 被 中 间 件 连接 的 情况 。 由 于 在 各 个 单独 的 数据 集 市 之 间 数 据 是 相互 关联 的 ， 因 此 至 少 在 元 
数据 的 级 别 上 ， 更 便于 维护 整个 企业 数据 的 一 致 性 。 虽 然 这 种 架构 允许 数据 集 市 间 的 复杂 数据 
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查询 ,但 是 其 分 析 结 果 的 展示 却 并 不 令 人 满意 。 

c 星 形 拓扑 架构 ”这 可 能 是 目前 最 流行 的 数据 仓库 架构 。 它 关注 于 建立 一 个 包括 集中 数据 
仓库 和 一 些 服务 于 专门 组 织 单元 的 从 属 数据 集 市 的 可 扩展 、 可 维护 架构 ， 通 常用 于 一 个 主题 接 
一 个 主题 的 迭代 式 开 发 。 这 种 架构 考虑 到 了 用 户 接口 和 报表 的 简易 型 和 定制 化 。 缺 点 是 缺乏 企 
业 全 局 观 ， 容 易 形成 数据 元 余 和 数据 延迟 。 

d 集中 数据 仓库 架构 ”集中 数据 仓库 架构 和 星 形 拓扑 架构 很 相似 ,不 同 之 处 在 于 ， 它 没有 
非 独 立 的 数据 集 市 ， 却 用 一 个 巨型 企业 数据 仓库 服务 于 所 有 的 组 织 机 构 。 集 中 的 方法 使 得 用 户 
不 再 受 限 于 数据 集 市 ， 可 以 对 数据 仓库 中 的 所 有 数据 进行 访问 。 这 缩减 了 技术 团队 所 需 转换 和 
更 改 的 数据 量 ， 使 得 数据 的 管理 和 监控 简单 化 。 如 果 这 种 架构 设计 和 实施 正确 的 话 ， 那 么 只 要 是 
在 企业 内 部 ， 无 论 是 谁 、 无 论 什 么 时 间 、 什 么 地 点 、 都 可 对 企业 进行 及 时 和 全 面 的 了 解 。Terada- 
ta 公司 主张 集中 数据 仓库 架构 ， 建 议 使 用 没有 任何 数据 集 市 的 数据 仓库 ， 如 图 2-6 所 示 。 

e 联合 数据 仓库 架构 “联合 数据 仓库 架构 是 对 自然 力量 的 妥协 ， 是 开发 一 个 完美 系统 的 最 
优 方法 。 它 从 不 同 渠 道 集成 分 析 资 源 来 满足 业务 的 变化 。 从 本 质 上 来 说 ， 联 合 方法 需要 不 同系 统 
的 集成 。 在 联合 架构 中 ， 现 行 的 决策 支持 架构 将 被 取消 ， 通 过 需要 的 数据 源 访问 数据 。 联 合 方法 
需要 中 间 件 供应 商 提供 分 布 查询 和 连接 功能 。 用 户 通过 使 用 基于 可 扩展 标记 语言 (Extensible 
Markup Lauguage, XML) 工具 ， 如 数据 仓库 、 数 据 集 市 、 网 站 、 文 档 和 操作 系统 等 ， 可 以 对 分 布 
的 数据 源 进 行 全 球 监控 ， 当 用 户 选 取 查 询 目 标 并 按 下 查询 按钮 时 ， 这 些 工具 会 对 分 布 的 数据 源 
进行 自动 查询 ， 并 将 查询 结果 关联 起 来 ， 最 终 展 现 给 用 户 。 大 多 数 专家 (Eckerson, 2005) 认为 
在 性 能 和 数据 质量 方面 ， 联 合 方法 对 数据 仓库 是 一 种 补充 而 不 是 替代 。 
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图 2-6 Teradata 公司 的 企业 数据 仓库 
来 源 : Teradata 公司 (teradata. com) ,已 授权 使 用 。 


Ariyachandra and Watson (2005) 提出 了 10 种 影响 架构 选择 的 潜在 因素 ， 它 们 分 别 是 : 
1. 组 织 单元 间 的 信息 独立 性 

2. 上 级 管理 对 信息 的 需要 

3. 对 数据 仓库 的 紧急 需要 

4. 终端 用 户 任 务 的 性 质 
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. 资源 限制 
. 数据 仓库 实施 前 的 战略 考虑 
. 与 现行 系统 的 兼容 性 
. 内 部 员工 的 理解 能 力 
. 技术 性 问题 

10. 社会 因素 和 政治 因素 

这 些 因 素 同 信息 系统 项 目 以 及 决策 支持 系统 和 商务 智能 项 目 实施 的 成 功 因素 相似 。 通 常 满 
足 上 层 管 理 的 信息 需求 以 及 设计 开发 过 程 中 的 社会 因素 或 者 政治 因素 这 类 行为 问题 ， 要 比 技术 
支持 更 为 重要 ， 尽 管 我 们 说 技术 也 是 重要 的 。 虽 然 ， 每 种 数据 仓库 架构 都 可 以 实现 最 有 效 的 应 
用 ， 并 能 为 组 织带 来 最 大 的 效益 ,但 数据 集 市 却 是 在 实践 中 效果 最 差 的 。 有 关 这 方面 更 详细 的 信 
息 可 以 参考 Ariyachandra and Watson (2006a) 的 相关 文献 。 


2. 3.2” 哪 种 架构 是 最 好 的 


自从 数据 仓库 成 为 现代 企业 必 不 可 少 的 一 个 部 分 后 ， 哪 种 数据 仓库 架构 是 最 好 的 就 摆 
上 了 议题 。 数 据 仓 库 领 域 的 两 大 学 者 对 其 有 各 自 的 看 法 ，Bill Inomn 认为 星 形 拓扑 架构 最 
好 ， 而 Ralph Kimball 则 主张 一 致 维度 的 数据 集 市 总 线 架构 更 为 优秀 。 其 他 的 架构 也 可 能 是 
最 优 的 ， 但 是 这 两 种 观点 是 完全 不 同 的 ， 每 种 都 有 强烈 的 支持 者 。 为 了 证 实 究 竞 哪 种 架构 
是 最 好 的 ，Ariyachandra and Watson (2006b) 进行 了 一 项 基于 经 验 的 研究 。 他 们 通过 对 参与 
数据 仓库 实施 过 程 的 人 员 ， 借 助 网 络 调查 的 方式 来 收集 数据 。 网 络 调查 的 具体 内 容 包括 对 
反馈 者 的 相关 信息 、 反 馈 者 的 公司 、 反 馈 者 的 公司 所 使 用 的 数据 仓库 以 及 数据 仓库 架构 的 
成 功 与 否 。 

Ariyachandra 和 Watson 最 后 总 计 收 回 了 454 份 调查 问卷 。 调 查 涵盖 了 从 年 收入 小 于 1 000 
万 美元 的 小 型 企业 到 年 收入 超过 100 亿美 元 的 大 型 公司 。 调 查 中 有 60% 的 公司 位 于 美国 且 从 
事 不 同 的 行业 ， 其 中 金融 服务 产业 的 反馈 最 多 ， 达 到 了 15% 。 调 查 结果 显示 ， 最 优秀 的 数据 
仓库 架构 是 星 形 拓扑 架构 ， 支 持 率 达到 了 39% ; 接 下 来 是 总 线 架 构 ， 支 持 率 为 26% ; 以 及 集 
中 架构 ， 支 持 率 为 17% ; 独立 数据 集 市 ， 支 持 率 为 12% ; 最 后 是 联合 架构 ， 支 持 率 为 4% 。 
主流 数据 仓库 平台 的 普及 率 分 别 是 Oracle 为 41% 、Microsoft 为 19% 以 及 IBM 为 18% 。 每 种 数 
据 架 构 的 平均 毛利 润 也 从 独立 数据 集 市 的 37 亿美 元 到 联合 架构 的 60 亿美 元 不 等 。 

Ariyachandra 和 Watson 使 用 4 种 指标 来 衡量 数据 仓库 架构 的 成 功 与 否 : (1) 信息 质量 ; (2) 
系统 质量 ; (3) 对 个 人 的 影响 ; (4) 对 组 织 的 影响 。 每 个 问题 满分 为 7 分 ， 分 数 越 高 ， 架 构 的 
成 功 性 也 越 高 。 表 2-1 表示 了 每 种 架构 4 种 指标 的 平均 得 分 。 


表 2-1 各 种 架构 成 功 性 的 平均 评价 得 分 
独立 数据 集 市 
4.42 
4.59 
5.08 
| 46 | 


\D © N A M 






集中 架构 
(没有 非 独立 的 数据 集 市 ) 


5.35 5.23 
5. 60 | 5. 56 5.41 










星 形 拓扑 架构 

























5.62 = 


5.24 


对 个 人 的 影响 
对 组 织 的 影响 











Ariyachandra 和 Watson 的 研究 表明 ， 独 立 数据 集 市 在 所 有 的 指标 中 都 得 分 最 低 ， 这 一 结论 印 
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证 了 独立 数据 集 市 实践 性 较 差 的 论点 。 接 下 来 最 低 的 是 联合 架构 。 当 公司 由 于 收购 和 合并 存在 
不 同 决策 支持 平台 时 ， 至 少 短期 内 公司 会 选取 联合 数据 仓库 架构 ， 而 这 一 结论 也 说 明了 联合 架 
构 并 不 是 一 项 最 优 的 长 期 选择 。 有 趣 的 是 ， 总 线 架构 、 集 中 星 形 拓扑 架构 和 集中 架构 的 得 分 却 没 
有 太 大 的 差距 ， 因 此 ， 在 这 种 评价 指标 的 简单 比较 下 ,我 们 无 法 证 明 某 种 架构 比 某 种 架构 更 为 
优越 。 

Ariyachandra 和 Watson 同时 也 收集 了 一 些 关于 数据 仓库 作用 域 ， 包 括 从 最 小 的 子 单元 到 全 企 
业 范 围 ， 以 及 数据 仓库 的 大 小 ， 也 就 是 数据 存储 量 的 相关 信息 。 他 们 发 现 大 多 数 企 业 级 实施 中 ， 
以 及 大 型 数据 仓库 会 选取 星 形 拓扑 架构 。 此 外 ， 他 们 也 收集 了 不 同 架构 实施 所 需 的 成 本 和 时 间 
信息 。 其 中 ， 星 形 拓扑 架构 成 本 最 高 ， 且 费时 最 长 。 


2. 3 节 复 习题 


1. 二 层 架 构 和 三 层 架 构 的 相同 点 和 不 同 点 是 什么 ? 

2. Web 如 何 影响 数据 仓库 的 设计 ? 

3. 列 出 本 章 所 提 到 的 可 选 的 数据 仓库 架构 。 

4. 在 开发 数据 仓库 中 选取 数据 仓库 架构 应 注意 什么 ? 列 出 最 重要 的 10 点 。 
5. 哪 种 数据 仓库 架构 最 好 ? 为 什么 ? 


2.4 ”数据 集成 以 及 提取 、 转换 和 加 载 的 过 程 


在 全 球 化 竞争 的 压力 下 ， 对 投资 回报 率 ( ROI) 、 管 理 和 投资 咨询 以 及 政府 法 规 的 要 求 ， 使 
得 管理 者 们 开始 重新 思考 如 何 集 成 和 管理 业务 。 决 策 者 们 普遍 需要 访问 整合 后 的 来 源 不 同 的 数 
据 。 在 数据 仓库 、 数 据 集 市 和 商务 智能 套件 产生 之 前 ， 数 据 源 的 访问 是 一 项 重大 而 艰苦 的 工作 。 
即使 在 当今 基于 Web 的 现代 数据 管理 工具 下 ， 访 问 什么 数据 以 及 如 何 将 数据 展示 给 决策 者 也 是 
需要 数据 库 专业 人 员 才 能 解决 的 非 平 凡 工 作 。 随 着 数据 仓库 容量 的 增加 ， 数 据 集 成 也 在 逐步 
发 展 。 

业务 分 析 需 要 进一步 发 展 。 合 并 和 收购 的 发 生 、 对 监管 的 要 求 以 及 新 渠道 的 引入 都 将 
驱动 商务 智能 需求 的 改变 。 除 了 历史 的 、 清 洗 后 的 、 合 并 的 以 及 时 间 点 的 数据 外 ， 业 务 用 
户 对 即时 的 、 非 结构 化 的 和 远程 数据 的 需要 也 在 逐渐 增加 ， 而 这 些 数据 都 要 与 数据 仓库 中 
的 内 容 相 集成 。(Edward，2003) 文献 指出 通过 PDA、 语 音 识别 和 语音 合成 进行 数据 访问 越 
来 越 普 遍 ， 这 使 得 数据 集成 变 得 更 为 复杂 。 越 来 越 多 的 集成 问题 开始 出 现在 企业 系统 中 。 
Orovic (2003) 文献 列 出 了 集成 项 目 中 作用 因素 和 非 作 用 因素 。 在 不 同 数据 库 间 或 者 不 同 
数据 源 间 实 现 正确 的 数据 集成 是 困难 的 。(Nash，2002) 文献 指出 ,一 旦 数据 集成 失败 ， 就 
会 给 企业 系统 带 来 灾难 ， 这 些 系统 包括 CRM, ERP 和 供应 链 系 统 。 


2.4.1 数据 集成 


数据 集成 包括 3 个 重要 阶段 ， 一 旦 数据 集成 成 功 ， 数 据 和 ETL、 分 析 工 具 和 数据 仓库 环境 均 
可 被 访问 。 这 3 个 阶段 分 别 是 : 数据 访问 ， 也 就 是 从 数据 源 中 访问 和 提取 数据 的 能 力 ; 数据 合 
并 ， 也 就 是 不 同 数据 源 间 的 业务 集成 ; 变化 捕捉 ， 即 基于 企业 数据 源 变化 的 识别 、 捕 捉 和 传送 。 
应 用 案例 2. 3 为 我 们 讲解 了 BP 润滑 油 公 司 如 何 从 数据 仓库 实施 中 的 数据 集成 获得 好 处 。 此 外 ， 
像 SAS 软件 公司 这 样 的 产品 供应 商 也 已 开发 出 强大 的 数据 集成 软件 。SAS 企业 的 数据 集成 服务 器 
包括 在 集成 过 程 中 能 够 提高 数据 质量 的 客户 数据 集成 工具 。Oracle 的 商务 智能 套件 也 同样 支持 数 
据 集成 。 
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应 用 案例 2. 3 ”BP 润滑 油 商 务 智能 和 全 球 标准 化 项 目的 巨大 成 功 


为 了 实现 全 球 发 布 信息 的 一 致 性 和 信息 管理 的 透明 性 ，BP 润滑 油 公司 在 并 购 后 开始 实行 其 商 
务 智 能 和 全 球 标准 化 (Business Intelligence and Global Standards, BIGS) 项 目 。 与 即时 商务 智能 一 
样 ，BIGS 为 诸如 财务 、 市 场 、 销 售 以 及 供应 和 物流 等 环节 提供 了 一 致 和 详细 的 信息 展示 。 

BP 润滑 油 是 世界 上 最 大 的 石油 石化 集团 之 一 ， 作 为 BP 公共 有 限 公司 集团 的 一 部 分 ， 在 
全 球 汽车 润滑 油 市 场 中 名 列 前 茅 。BP 公司 最 出 名 的 润滑 油 品 牌 是 Castrol， 它 的 业务 范围 超过 
了 100 个 国家 ,雇员 人 数 高 达 1 万 。 在 战略 上 ，BP 润滑 油 采 取 以 客户 为 中 心 ， 致 力 于 提高 其 
在 机 动车 市 场 的 效率 。 在 最 近 的 并 购 活 动 后 ，BP 公司 抓 住 了 其 快速 成 长 的 机 会 ， 公 司 的 效能 
和 灵活 性 都 得 到 了 进一步 的 提高 。 

挑战 

并 购 后 ，BP 润滑 油 希 望 提高 其 信息 管理 和 商务 智能 的 一 致 性 、 透 明 性 和 可 访问 性 。 要 实现 这 
一 目标 ， 公 司 就 必须 对 其 不 同 源 系统 中 的 数据 进行 集成 ， 以 避免 ERP 标准 化 系统 引入 的 延迟 。 

解决 方案 

出 于 信息 管理 和 商务 智能 的 战略 考虑 ，BP 润滑 油 开始 率先 实施 BIGS。BIGS 的 核心 是 
Kalido， 一 种 能 够 实现 准备 、 实 施 、 运 营 和 管理 数据 仓库 的 自 适 应 企业 数据 仓库 解决 方案 。 

Kalido 的 合并 企业 数据 仓库 解决 方案 支持 这 项 BIGS 所 需 的 复杂 的 数据 集成 以 及 多 变 的 报 
表 需 求 。 为 了 适应 项 目 对 报表 的 需求 ， 这 一 软件 同时 还 允许 在 所 有 信息 完全 保存 的 前 提 下 ， 
轻松 地 实现 信息 架构 基础 的 快速 修改 。 系 统 集成 和 存储 多 种 源 系 统 中 的 信息 ， 为 以 下 各 环节 
提供 了 一 致 的 数据 支持 : 

。 市 场 通过 深度 探讨 发 票 层 详细 信息 ， 可 以 观察 到 客户 收益 以 及 细 分 市 场 利 润 

。 销售 ”销售 发 票 报 告 提高 了 关税 成 本 和 实际 支付 额 

e 财务 具备 审计 能 力 的 全 球 标准 化 的 损益 表 、 资 产 负 债 表 和 现金 流量 表 ; 客户 负债 

管理 供应 和 物流 ; 订单 同步 以 及 跨 多 个 ERP 平台 的 动态 流程 

收益 

通过 提高 数据 的 可 见 性 和 即时 性 ，BIGS 可 以 提供 大 量 信息 支持 业务 机 会 的 识别 ， 以 实现 
公司 效益 的 最 大 化 ， 并 关联 成 本 的 管理 。 由 于 BIGS 项 目 中 的 数据 同步 ， 而 为 BP 公司 带 来 的 
好 处 主要 有 : 

© 提高 业务 数据 的 一 致 性 和 透明 性 

© 轻松 、 快 速 和 更 灵活 的 报表 

o 全 球 标准 和 当地 标准 的 适应 

o 快捷 、 低 成 本 以 及 灵活 的 实施 周期 

© 现行 业务 流程 和 日 常 业务 中 断 的 最 小 化 

© 识别 数据 质量 问题 ， 并 做 出 解决 方案 

© 提高 对 新 业务 机 会 的 智能 反应 能 力 

来 源 : Kalido, “BP Lubricants Achieves BIGS, Key IT Solutions,” keyitsolutions. com/asp/rptdetails/report/95/cat/ 

1175/( accessed August 2009 ) ; Kalido, “ BP Lubricants Achieves BIGS Success,” kalido. com/collateral/ Docu- 
ments/ English ~ US/CS - BP% 20BIGS. pdf ( accessed August 2009) ; and BP Lubricant homepage, 
bp. com/lubricanthome. do( accessed August 2009 ). 








数据 仓库 的 主要 目的 是 集成 不 同系 统 中 的 数据 。 提 供 数 据 和 元 数据 集成 的 集成 技术 有 : 
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e 企业 应 用 集成 

。 面向 服务 的 架构 

。 企业 信息 集成 

o 数据 提取 、 转 换 和 加 载 

企业 应 用 集成 (Enterprise Application Integration, EAI) 是 从 源 系 统 向 数据 仓库 中 推送 数据 的 
媒介 ， 具备 集成 应 用 的 功能 。EAI 关注 系统 间 功 能 的 共享 ， 而 不 是 数据 ， 使 系统 变 得 更 为 灵活 且 
具有 重用 性 。 传 统 上 ，EAI 解决 方案 主要 关注 应 用 程序 接口 层 的 应 用 重用 问题 ; 而 现在 ， 由 于 使 
用 定义 和 文档 良好 的 粗 粒度 SOA 架构 ， 即 业务 流程 或 者 功能 集成 的 引入 ，EAI 也 得 到 了 进一步 
的 完善 。WEB 服务 就 是 一 种 实施 SOA 架构 的 专门 手段 。EAI 可 以 被 用 于 在 准 实时 数据 仓库 中 进 
行 数 据 查 询 ， 或 者 将 决策 信息 传送 至 OLTP 系统 中 。EAI 的 实施 手段 和 工具 有 很 多 种 。 

企业 信息 集成 (Enterprise Information Integration, EI) 人 允许， 如 关系 数据 库 、Web 服务 以 及 
多 维 数据 库 之 类 的 多 个 数据 源 间 的 实时 数据 集成 。EII 是 一 类 从 源 系 统 中 提取 数据 以 满足 信息 需 
求 的 机 制 。EI 工具 使 用 预定 义 的 元 数据 以 视图 的 模式 将 集成 后 的 数据 展现 给 终端 用 户 。XML 
(Kay, 2005) 文献 指出 ，XML 是 EI 最 为 重要 的 一 部 分 ，XML 使 数据 在 创建 和 之 后 的 使 用 中 都 
被 标注 ， 这 些 标注 可 以 被 扩展 和 修改 以 适应 任何 知识 领域 。 

物理 数据 的 集成 已 经 成 为 在 数据 仓库 和 数据 集 市 中 建立 数据 集成 视图 的 惯例 做 法 。XML 
(Kay, 2005) 文献 指出 ， 随 着 EI 工具 的 出 现 ， 虚 拟 数据 的 集成 也 变 得 可 能 。Manglik and Mehra 
讨论 了 新 数据 集成 类 型 的 好 处 和 不 足 ， 这 种 类 型 将 传统 物理 方法 扩展 到 一 种 全 面 的 企业 视角 。 

接 下 来 我 们 将 讨论 向 数据 仓库 中 加 载 数 据 的 方法 : ETL, 


2.4.2 ， 提取、 转换 和 加 载 


数据 仓库 的 核心 技术 流程 是 : 提取 、 转 换 和 加 载 (Extraction, Transformation and Load, 
ETL) 。ETL 技术 已 经 存在 了 一 段 时 间 了 ， 对 数据 仓库 的 流程 和 使 用 有 帮助 。ETL 流程 是 任何 以 
数据 为 中 心 项 目的 集成 组 件 。ETL 通常 需要 占用 以 数据 为 中 心 的 项 目 中 70% 的 时 间 ， 这 对 于 任 
何 一 个 IT 管理 人 员 来 说 都 是 一 种 挑战 。 

ETL 流程 包括 提取 (也 就 是 从 一 个 或 多 个 数据 库 中 读 取 数据 ); 转换 (即将 提取 后 的 数据 由 
一 种 数据 类 型 转换 为 另 一 种 所 需 的 数据 类 型 ， 以 便于 存储 于 数据 仓库 或 者 其 他 简单 的 数据 库 中 ) 
以 及 加 载 (也 就 是 将 数据 存 人 数据 仓库 中 ) 。 转 换 通常 发 生 于 规则 使 用 、 表 格 查询 或 者 数据 合并 
中 。 这 3 种 数据 库 功能 被 集成 于 一 类 工具 中 ， 用 于 将 数据 从 一 个 或 多 个 数据 库 中 提取 出 来 并 加 载 
人 另 一 个 数据 库 或 者 数据 仓库 中 。 

ETL 工具 常常 在 不 同 的 源 和 目标 间 进 行 数据 传送 ， 并 记录 在 源 和 目标 间 移 动 时 的 数据 元 素 ( 比 
如 元 数据 ) 变化 ， 在 必要 时 与 其 他 的 应 用 交换 元 数据 ， 并 监控 所 有 运转 的 流程 和 操作 (比如 调度 计 
划 、 错 误 管理 、 检 查 日 志和 统计 数据 等 )。ETL 对 数据 集成 和 数据 仓库 同样 重要 。ETL 的 目的 是 向 数 
据 仓 库 中 加 载 集成 和 清洗 后 的 数据 。ETL 流程 中 使 用 的 数据 可 以 来 自 不 同 的 数据 源 : 大 型 机 应 用 、 
ERP 应 用 、CRM 工具 、 平 面 文件 、Excel 电子 数据 表 ， 甚 至 是 消息 队列 。 图 2-7 描绘 了 ETL 流程 。 














图 2-7 ETL 流程 
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将 数据 迁移 到 数据 仓库 中 ， 需 要 从 关联 数据 源 中 提取 数据 。 数 据 源 包括 从 OLTP 数据 库 、 电 
子 数据 表 、 个 人 数据 库 (如 Microsoft Access) ， 以 及 外 部 文件 中 提取 的 文件 。 通 常 ， 所 有 的 输入 
文件 先 被 写 到 一 个 预先 设计 的 、 用 于 加 速 加 载 流 程 的 临时 表 中 。 数 据 仓 库 包 括 大 量 的 业务 规则 ， 
这 些 规 则 定义 了 数据 如 何 使 用 、 概 括 规则 、 编 码 属性 的 标准 化 以 及 计算 规则 。 在 数据 加 载 到 数据 
仓库 之 前 ， 源 文件 的 数据 质量 必须 是 准确 无 误 的 。 良 好 定义 的 数据 仓库 的 优点 之 一 就 是 这 些 规 
则 能 存储 在 元 数据 仓库 中 ， 并 且 可 以 直接 用 于 数据 仓库 中 。 这 一 点 与 OLTP 的 做 法 不 同 ，OLTP 
中 的 数据 和 业务 规则 是 分 散 于 整个 系统 中 的 。 数 据 仓 库 中 数据 加 载 的 过 程 既 可 以 在 业务 规则 的 
开发 和 维护 中 ， 借 助 于 提供 图 形 用 户 界面 (Graphical User Interface, GUI) 的 数据 转换 工具 来 实 
现 ， 也 可 以 通过 诸如 PL/SQL, C++. . Net 等 编程 语言 ， 自 行 编写 软件 或 实用 工具 来 加 载 数据 仓 
库 这 种 传统 方法 来 实现 。 这 一 决定 对 组 织 来 说 通常 是 艰难 的 ， 当 组 织 确定 购买 数据 转换 工具 或 
者 自行 编写 数据 转换 程序 时 ， 会 受到 以 下 很 多 因素 的 影响 : 

。 数据 转换 工具 很 贵 

。 学 习 数 据 转换 工具 费时 较 长 

。 在 学 会 使 用 数据 转换 工具 前 ， 无 法 估量 IT 组 织 做 得 如 何 

从 长 期 来 看 ， 转 换 工 具 应 该 简化 数据 仓库 的 维护 ， 同 时 使 检测 和 纠 错 更 有 效率 (也 就 是 将 
数据 中 异常 部 分 去 除 ) 。OLAP 和 数据 挖掘 工具 将 依赖 于 数据 转换 的 效果 。 

(Songini, 2004) 文献 指出 ， 作 为 ETL 使 用 的 成 功 范本 ，Motorola 公司 借助 ETL 工具 从 30 个 
不 同 的 采购 系统 中 收集 数据 并 将 其 传送 到 其 全 球 SCM 数据 仓库 中 ， 进 行 公司 总 支出 的 分 析 。 

Solomon (2005) 将 ETL 技术 划分 为 4 大 类 : 复杂 的 、 可 使 用 的 、 简 单 的 和 基础 的 。 通 常 ， 
我 们 认为 复杂 的 ETL 技术 会 使 数据 仓库 项 目 文档 完备 且 管 理 精确 。 

尽管 自行 开发 ETL 工具 是 可 行 的 ， 但 是 使 用 现行 的 ETL 工具 更 为 简单 。 根 据 文献 (Brown, 
2004) ， 以 下 是 一 些 选择 ETL 工具 的 重要 标准 : 

© 多 个 数据 源 架 构 下 的 数据 读 写 能 力 

© 自动 捕获 和 传输 元 数据 

© 符合 开放 标准 的 历史 

。 是 否 为 开发 者 和 用 户 提供 了 简单 易 用 的 界面 

ETL 的 广泛 使 用 标志 着 数据 管理 的 贫乏 以 及 相关 数据 管理 策略 的 缺少 。Karacsony (2006 ) 
曾 提出 元 余数 据 的 扩大 化 和 ETL 流程 的 数量 之 间 存 在 着 某 种 直接 的 关系 。 当 数据 作为 一 项 企业 
资产 被 正确 管理 时 ，ETL 的 效果 大 大 地 降低 ， 同 时 宛 余 数据 也 会 全 部 消除 。 这 导致 了 在 数据 质量 
改善 的 同时 ， 维 护 过 程 中 大 量 数据 的 存储 以 及 新 开发 的 高 效 执行 。ETL 设计 的 不 合理 将 会 大 大 增 
加 维护 、 转 型 以 及 更 新 的 成 本 。 因 此 ， 正 确 选 择 开 发 和 维护 ETL 过 程 所 使 用 的 技术 和 工具 是 非 
常 重要 的 。 

但 一 定数 量 的 ETL 软件 包 也 是 有 用 的 。 数 据 库 供应 商 目前 提供 的 ETL 软件 包 与 独立 的 ETL 
TARE EMR ATER. SAS 意识 到 数据 质量 的 重要 性 ， 提 出 了 工业 界 第 一 个 完全 集成 的 解决 
方案 ， 它 将 ETL 和 数据 质量 两 方面 因素 结合 起 来 ， 使 得 数据 真正 转换 为 有 战略 价值 的 资产 。 除 
了 SAS 外， 市场 上 还 有 一 些 其 他 的 ETL 软件 商 ， 如 微软 、Oracle、IBM、Informatica、Embarcadero 
和 Tibco。 想 知道 ETL 更 详细 的 信息 ， 请 参见 Golfarelli and Rizzi (2009), Karacsony (2006) 以 及 
Songini (2004) 相关 文献 。 


2. 4 节 复 习题 


1. 数据 集成 是 什么 ? 
2. 描述 ETL 流程 的 3 个 阶段 。 
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3. 为 什么 ETL 过 程 对 于 数据 仓库 的 结果 如 此 重要 ? 


2.5 数据 仓库 的 开发 


数据 仓库 对 于 任何 组 织 来 说 都 是 一 个 大 工程 ， 它 要 比 一 个 简单 的 主机 选择 和 项 目 实施 要 复 
杂 得 多 ， 它 不 仅 涉 及 和 影响 到 组 织 内 的 许多 部 门 以 及 输入 输出 接口 ， 同 时 还 要 作为 CRM 商业 战 
略 的 一 部 分 。 数 据 仓库 所 带 来 的 好 处 可 以 分 成 直接 利益 和 间接 利益 两 类 ， 其 中 直接 利益 包括 以 
下 几 方 面 : 

。 终端 用 户 可 以 以 多 种 方式 进行 广泛 的 分 析 。 

。 实现 企业 数据 的 一 致 性 ， 也 就 是 事实 的 单一 版 本 。 

。 更 好 和 更 及 时 的 信息 ， 数 据 仓库 允许 从 高 成 本 的 操作 系统 转向 低 成 本 的 服务 器 的 信息 处 

理 ， 因 此 终端 用 户 的 信息 请 求 得 以 快速 执行 。 
。 提高 系统 性 能 。 由 于 一 些 操 作 系 统 的 报表 请 求 被 转向 DSS， 因 此 数据 仓库 可 以 没有 生产 
处 理 。 

。 数据 访问 更 为 简便 。 

间接 利益 来 源 于 终端 用 户 享用 直接 利益 的 过 程 。 总 的 来 说 ， 这 些 利益 提高 了 企业 的 业务 知 
W, 展现 了 企业 的 竞争 优势 ， 提 升 了 客户 的 服务 及 其 满意 度 ， 促进 了 决策 的 制定 ， 并 且 有 助 于 业 
务 流程 的 改进 ， 这 些 即 是 对 提升 企业 竞争 优势 最 强 有 力 的 帮助 。( 想 要 了 解数 据 仓库 如 何 为 企业 
提升 竞争 优势 的 具体 讨论 ， 可 以 参见 (Parzinger and Frolick, 2001) ; 想 要 知道 组 织 如 何 获取 和 额外 
回报 的 详细 讨论 ， 可 以 参见 Waston et al. (2002)。) 考虑 到 数据 仓库 可 以 带 来 的 潜在 利益 以 及 一 
个 项 目 在 时 间 和 人 金钱 两 方面 所 需要 的 大 量 投资 ,组 织 如 何 构建 数据 仓库 使 得 成 功 的 机 会 最 大 化 
是 非常 重要 的 。 除 此 之 外 ,组 织 必须 显而易见 地 考虑 成 本 。Kelly (2001) 文献 中 描述 了 一 个 考 
虑 管理 者 (也 就 是 通过 改进 传统 决策 支持 功能 来 节约 成 本 ) 、 采 集 者 (通过 自动 化 进行 信息 采集 
和 传播 来 节约 成 本 ) 和 使 用 者 〈 通 过 使 用 数据 仓库 制定 决策 来 节约 成 本 或 获 利 ) 这 三 类 人 利益 
的 投资 回报 率 方法 。 这 些 成 本 包括 硬件 、 软 件 、 网 络 带 宽 、 内 部 开发 、 内 部 支持 、 培 训 、 外 部 咨 
询 等 方面 。 而 净 现 值 (Net Present Value，NPV) 则 以 超过 数据 仓库 的 预期 使 用 年 限 来 进行 计算 。 
这 些 利益 被 上 述 三 方 瓜 分 ， 其 中 管理 者 占 将 近 20%, RRA A 30% ， 而 使 用 者 则 占 到 50%, 
Kelly 认为 随 着 组 织 的 改变 ， 使 用 者 是 否 参 与 到 数据 仓库 开发 过 程 中 ， 将 作为 衡量 系统 是 否 成 功 
的 要 素 。 

应 用 案例 2.4 介绍 了 日 本 Hokuriku Coca-Cola 瓶装 公司 (HCCBC) 的 数据 仓库 开发 过 程 及 其 
为 公司 带 来 的 巨大 竞争 优势 。 这 套 系统 如 此 成 功 ， 按 照 计划 Coca-Cola 自动 贩卖 机 在 日 本 超过 了 
100 万 台 。 





应 用 案例 2.4 Coke 的 数据 仓库 让 事情 变 得 越 来 越 好 


面 对 竞 争 压力 和 消费 需求 ， 一 个 成 功 的 瓶装 公司 如 何 确保 自动 贩卖 机 带 来 收益 ? 对 于 HC- 
CBC 来 说 ， 这 个 问题 的 答案 就 是 数据 仓库 和 Teradata 的 分 析 软 件 。HCCBC 建立 数据 仓库 的 主要 
原因 是 为 了 向 其 竞争 对 手 Mikuni 美国 公司 建立 数据 仓库 系统 进行 反击 。 其 数据 仓库 不 仅 收 
集 历 史 数据 ， 同 时 还 从 各 个 自动 贩卖 机 中 收集 近 实 时 数据 。 它 将 每 一 个 自动 贩卖 机 看 为 一 个 门 
店 ， 自 动 贩 卖 机 中 的 数据 通过 无 线 网 络 传送 至 总 部 。 这 一 项 目 开始 于 2001 年 。 数 据 仓 库 提 供 了 
详细 的 产品 信息 ， 包 括 每 次 销售 发 生 的 具体 时 间 和 日 期 、 某 种 产品 卖 出 的 时 间 、 某 个 顾客 是 否 
少 找 钱 了 以 及 某 个 机 器 是 否 发 生 了 故障 。 在 任何 一 种 情况 下 ， 都 会 触发 警报 ， 自 动 贩卖 机 通过 














第 2 章 数据 仓库 





无 线 传输 系统 将 报告 直接 传送 到 数据 中 心 。 美 国 可 口 可 乐 公司 曾 使 用 调制 解 调 器 进行 自动 贩 
卖 机 和 经 销 商 间 的 信息 传送 长 达 10 余年 。 

2002 年 ，HCCBC 进行 了 一 项 初步 试验 ， 将 其 所 有 位 于 长 野 县 的 全 部 自动 贩卖 机 连接 到 
无 线 网 络 收集 每 台 的 近 实 时 销售 网 点 的 数据 。 结 果 令 人 震惊 ， 所 有 的 贩卖 机 都 可 以 精确 预测 
需求 和 快速 识别 问题 ， 销 售 总 额 也 增加 了 10% 。 除 此 之 外 ， 由 于 贩卖 机 服务 的 精准 化 ， 延 时 
和 其 他 费用 减少 了 46% 。 另 外 ， 每 个 店员 能 够 服务 的 自动 贩卖 机 的 数目 提高 了 429% 。 

由 于 这 次 试验 的 圆满 成 功 ，HCCBC 计划 采用 实时 数据 仓库 ， 将 这 一 改动 扩大 到 全 公司 范 
A, 将近 6 万 台 机 器 。 最 终 ， 这 一 数据 仓库 解决 方案 将 跨 过 企业 边界 的 界限 ， 进 入 到 整个 可 
口 可 乐 瓶装 网 络 中 。 这 样 ， 全 上 日 本 超过 100 万 台 的 自动 贩卖 机 都 将 接 入 网 络 ， 这 一 切 将 极 大 
地 缩减 公司 的 成 本 ， 并 为 公司 带 来 更 大 的 收益 。 

来 源 : Adapted from K. D. Schwartz,“ Decisions at the Touch of a Button,” Teradata Magazine , teradata. com/t/page/ 
117774/index. html( accessed June 2009 ) ; K. D. Schwartz“ Decisions at the Touch of a Button,” DSS Resources, 
March 2004. pp. 28-31, dssresources. com/cases/coca- colajapan/index. html ( accessed April 2006 ) ; and 
Teradata Corp. , “ Coca- Cola Japan Puts the Fizz Back in Vending Machine Sales,” teradata. com/t/page/ 
118866/index. html( accessed June 2009). 











对 于 一 个 成 功 的 数据 仓库 项 目 来 说 ， 业 务 对 象 的 清晰 定义 、 管 理 层 对 项 目的 支持 、 合 理 的 时 
限 和 预算 以 及 管理 期 望都 是 必 不 可 少 的 。 数 据 仓库 战略 是 数据 仓库 成 功 引 入 的 蓝图 ， 这 一 战略 
需要 明确 企业 的 预期 目标 、 动 机 以 及 实现 目标 后 的 进一步 计划 。 这 就 需要 考虑 到 组 织 的 前 景 规 
划 、 架 构 和 文化 。Matney (2003) 文献 中 提出 了 一 系列 可 以 帮助 企业 进行 数据 仓库 开发 的 灵活 高 
效 战略 。 一 旦 建立 数据 仓库 的 计划 和 相应 支持 到 位 后 ， 企 业 就 需要 仔细 核查 数据 仓库 的 供应 商 。 
表 2-2 是 目前 市 面 上 数据 仓库 供应 商 的 一 部 分 ， 更 多 的 可 以 参见 数据 仓库 协会 (twdi. com) 和 
《DM Review) (dmreview. com) 。 多 数 供应 商会 提供 其 数据 仓库 和 商务 智能 产品 的 软件 演示 。 


表 2-2 部 分 数据 仓库 供应 商 










供应 商 产品 



















































































Computer Associates (Cai. com) 数据 仓库 工具 和 产品 的 综合 套件 
DataMirror (datamirror. com) 数据 仓库 管理 和 性 能 产品 

Data Advantage Group (dataadvantage. com) 元 数据 软件 

Dell (dell. com) 数据 仓库 服务 器 

Embarcadero Technologies (embarcadero. com) 数据 仓库 管理 和 性 能 产品 

Business Objects (businessobjects. com) 数据 清洗 软件 

Harte-Hanks (harte-hanks. com) CRM 产品 和 服务 

HP (hp. com) 数据 仓库 服务 器 

Hummingbird 有 限 公 司 (hummingbird. com) 数据 仓库 引擎 和 探索 仓库 

Hyperion Solution (hyperion. com) 数据 仓库 工具 、 产 品 和 应 用 的 组 合 套件 
IBM (ibm. com) 数据 仓库 工具 、 产 品 和 应 用 

Informatica (informatica. com) 数据 仓库 管理 工具 和 产品 

Microsoft (Microsoft. com) 数据 仓库 工具 和 产品 

Oracle (包括 PeopleSoft ffl Siebel) (oracle. com) 数据 仓库 、ERP 和 CRM 工具 、 产 品 和 应 用 
SAS 协会 (sas. com) 数据 仓库 工具 、 产 品 和 应 用 

Siemens (Siemens. com) 数据 仓库 服务 器 

Sybase ( Sybase. com) 数据 仓库 产品 和 应 用 的 综合 套件 
Teradata (teradata. com) 数据 仓库 工具 、 产 品 和 应 用 





2.5.1 数据 仓库 供应 商 
McCloskey (2002) 列举 了 选择 供应 商 时 所 应 遵循 的 6 项 原则 ， 分 别 是 : 经 济 实力 、 与 ERP 系统 的 
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关联 性 、 合 格 的 咨询 顾问 、 市 场 份额 、 行 业经 验 以 及 之 前 建立 的 合作 关系 。 企 业 可 以 通过 展会 和 公司 
网 站 获取 供应 商 的 具体 信息 ， 也 可 直接 向 供应 商 询问 具体 的 产品 信息 。Van den Hoven (1998) 文献 区 
分 了 3 种 数据 仓库 产品 的 不 同 之 处 。 第 一 类 是 用 于 处 理 像 是 数据 定位 、 数 据 提取 、 数 据 转换 、 数 据 清 
洗 、 数 据 传输 以 及 数据 加 载 之 类 的 功能 。 第 二 类 则 是 一 种 类 似 数据 库 引 擎 的 数据 管理 工具 ， 用 于 数据 
仓库 和 元 数据 的 存 取 和 管理 。 第 三 类 是 一 种 数据 访问 工具 ， 可 供 终端 用 户 在 数据 仓库 中 进行 数据 分 析 。 
这 类 数据 仓库 产品 包括 查询 生成 器 、 可 视 化 、EIS、OLAP 以 及 数据 挖掘 。 


2.5.2 数据 仓库 开发 方法 


很 多 组 织 都 需要 建立 数据 仓库 进行 决策 支持 ， 而 它们 所 采用 的 方法 有 两 种 。 第 一 种 方法 是 
数据 仓库 之 父 Bill Inmon 提出 的 ， 他 主张 由 上 向 下 的 开发 方法 ， 使 传统 的 关系 数据 库 能 够 适应 整 
个 企业 范围 内 数据 仓库 开发 的 需要 ， 也 就 是 EDW 开发 方法 。 第 二 种 方法 是 Ralph Kimball 提出 
的 ， 他 主张 运用 维度 建 模 由 底 向 上 的 开发 方法 ， 这 也 是 数据 集 市 的 开发 方法 。 

Breslin (2004) 文献 认为 ， 知 道 这 两 种 方法 的 相同 和 不 同 之 处 ， 有 助 于 我 们 理解 数据 仓库 的 
基本 概念 。 表 2-3 对 两 种 方法 进行 了 详细 的 对 比 ， 下 面 将 具体 介绍 这 两 种 方法 。 

Inmon 的 模型 : EDW 方法 ”Inmon 的 方法 强调 由 上 向 下 进行 开发 ， 并 使 用 实体 关系 图 (En- 
tity- Relationship Diagram, ERD) 和 螺旋 式 开 发 等 数据 库 开 发 方法 和 工具 。EDW 的 开发 方法 并 不 
排斥 建立 数据 集 市 。EDW 是 一 种 理想 的 开发 方法 ， 它 提供 了 一 致 和 全 面 的 企业 观 。Murtaza 
(1998) 文献 提出 了 开发 EDW 的 框架 。 

Kimball 模型 : 数据 集 市 方法 Kimball 的 数据 集 市 策略 是 一 种 “大 计划 、 小 实施 ”的 方法 。 
数据 集 市 是 一 类 面向 主题 或 者 面向 部 门 的 数据 仓库 ， 它 是 数据 仓库 的 缩小 版 ， 主 要 关注 某 个 具 
体 部 门 的 应 用 请 求 ， 例 如 市 场 或 者 销售 部 门 。 这 一 模型 采取 了 由 数据 表 入 手 的 维度 建 模 技术 。 
Kimball 提倡 由 底 向 上 的 开发 方法 ， 以 便于 在 数据 仓库 建立 的 同时 完成 数据 集 市 的 建立 。 


表 2-3 EDW 和 数据 集 市 开发 方法 的 对 比 













































































评价 指标 数据 集 市 方法 EDW 方法 
范围 单 主题 域 多 主题 域 
开发 时 间 数 月 数 年 
开发 成 本 1 万 美元 ~ 10 万 美元 以 上 100 万 美元 以 上 
开发 难度 低 或 中 等 高 
开发 前 的 数据 准备 业务 知识 企业 知识 
数据 源 少数 操作 系统 和 外 部 系统 多 数 操作 系统 和 外 部 系统 
大 小 兆 字 节 ~ 吉 字 节 吉 字 节 ~ 帕 字 节 
时 间 范 围 近 实 时 和 历史 数据 历史 数据 
数据 转换 低 或 中 等 高 
更 新 频率 每 小 时 、 每 天 、 每 周 每 周 、 每 月 
技术 硬件 工作 站 和 部 门 服务 器 企业 服务 器 和 大 型 计算 机 
操作 系统 Windows 和 Linux Unix, Z/OS, OS/390 
数据 库 工作 组 或 标准 数据 库 服 务 器 企业 数据 库 服务 器 
用 法 
并 发 用 户 数 10 | 100 ~1000 
用 户 类 型 业务 层 分 析 师 和 管理 人 员 | ”企业 分 析 师 和 高 级 管理 人 员 
商业 焦点 业务 领域 活动 的 最 优化 跨 职能 最 优化 ， 支 持 企业 决策 








来 源 : Based on J. Van den Hoven, “Data Marts; Plan Big, Build Small,” in JS Management Handbook ,8th ed. ,CRC Press ,Bo- 
ca Raton, FL,2003 ; and T. Ariyachandra and H. Watson, “ Which Data Warehouse Architecture Is Most Successful?” Bus- 
iness Intelligence Journal , Vol. 11 ,No. 1, First Quarter 2006. pp. ,4-6. 
哪 种 模型 更 好 ”没有 通用 的 、 一 成 不 变 的 策略 适用 于 所 有 的 数据 仓库 。 随 着 用 户 需求 、 企 业 
业务 需求 以 及 企业 在 数据 源 管 理 方面 的 成 熟 度 的 变化 ， 企 业 的 数据 仓库 策略 可 以 从 简单 的 数据 
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集 市 发 展 到 复杂 的 数据 仓库 。 对 于 许多 企业 来 说 ， 除 了 向 业务 用 户 展现 更 好 的 访问 数据 所 能 带 
来 的 好 处 外 ， 数 据 集 市 还 是 获取 数据 仓库 实现 和 管理 经 验 的 首要 一 步 。 除 此 之 外 ， 数 据 集 市 往往 
还 能 显示 数据 仓库 的 商业 价值 。 最 终 ， 获 得 EDW 是 理想 的 (参阅 应 用 案例 2. 5) 。 然 而 按照 开发 
EDW 的 方法 开发 独立 数据 集 市 通常 会 为 组 织带 来 更 大 的 好 处 ， 特 别 是 在 组 织 不 能 或 者 不 愿 开发 
大 规模 项 目的 时 候 。 数 据 集 市 证 明了 可 行 性 及 其 所 带 来 的 种 种 好 处 ， 这 些 将 带 来 对 EDW 的 投 
资 。 表 2-4 总 结 了 这 两 类 模型 的 本 质 特征 的 不 同 。 


表 2-4 Inmon 模型 和 Kimball 模型 的 本 质 区 别 
























































特征 Inmon Kimball 

方法 与 架构 方法 自 顶 向 下 自 底 向 上 

架构 结构 企业 数据 仓库 支持 部 门 数据 库 数据 集 市 对 一 个 单独 的 业务 流程 建 模 ， 
通过 一致 维度 的 数据 总 线 实现 企业 数据 的 
一 致 性 

方法 的 复杂 度 相当 复杂 相当 简单 

与 开发 方法 相 比 源 于 螺旋 形 方法 ln 
分 

物理 设计 的 考虑 。 ”| ” 较 完全 不 完全 

数据 建 模 

数据 定位 | ”面向 主题 或 是 数据 驱动 面向 业务 流程 

工具 传统 的 ER 图 、 数 据 流 图 多 维 建 模 ; 是 关系 建 模 的 分 支 

终端 用 户 的 可 访问 性 低 高 

主要 用 户 IT eR 终端 用 户 

组 织 中 的 定位 企业 信息 工厂 的 集成 部 分 操作 数据 的 转换 和 保留 

- 基于 已 被 印证 的 数据 库 方法 和 技术 | ”出 于 简化 终端 用 户 在 一 定 的 响应 时 间 内 

而 实现 的 一 种 可 行 的 技术 解决 方案 | 直接 查询 数据 的 目的 而 实现 的 解决 方案 


来 源 : Based on M. Breslin, “Data Warehousing Battle of the Giants; Comparing the Basics of Kimball and Inmon Models,” Busi- 
ness Intelligence Journal , Vol. 9 ,No. 1 , Winter 2004 , pp. 6-20; and T. Ariyachandra and H. Watson, “ Which Data Ware- 
house Architecture Is Most Successful?” Business Intelligence Journal , Vol. 11, No. 1 , First Quarter 2006. 





应 用 案例 2.5 HP 将 数 百 个 数据 集 市 合并 为 一 个 企业 数据 仓库 


2005 年 12 月 ，Hewlett-Packard 决定 将 其 全 球 762 个 数据 集 市 合并 为 一 个 企业 数据 仓库 。 
HP 意图 通过 这 一 做 法 获得 超前 的 商业 意识 ， 明 确 如 何 更 好 地 为 客户 提供 服务 。HP 的 总 裁 兼 
首席 执行 官 Mark Hurd 声称 ， 企 业内 部 对 于 分 析 数 据 的 “如 饥 似 渴 ” 错 误 地 导致 了 大 量 数据 
集 市 的 建立 。 这 些 数据 弧 岛 的 设计 和 维护 都 极为 昂贵 ， 同 时 也 没有 为 HP 带 来 其 所 需 的 企业 
内 部 信息 和 客户 信息 。2006 EPA, HP 开始 将 其 数据 集 市 中 的 数据 合并 到 一 个 新 的 数据 仓 
库 中 ， 而 所 有 的 这 些 数据 集 市 将 被 完全 消除 。 


来 源 : Based on C. Martins, “HP to Consolidate Data Marts into Single Warehouse, ”Computerwould ,December 13 ,2005. 











2.5.3 数据 仓库 开发 的 其 他 思考 


一 些 组 织 想 要 外 包 数 据 仓库 。 他 们 既 不 想 处 理 硬件 和 软件 的 请 求 ， 也 不 想 管理 信息 系统 。 这 
类 问题 的 一 个 办 法 就 是 使 用 托管 数据 仓库 。 在 这 种 情景 下 ， 另 外 一 家 公司 会 拥有 数据 仓库 开发 
和 维护 的 丰富 经 验 和 专业 知识 。 但 是 ， 这 种 方法 还 要 考虑 到 数据 的 安全 和 隐私 问题 。 技 术 前 沿 
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2. 1 为 我 们 介绍 了 托管 数据 仓库 的 更 详细 内 容 。 


技术 前 沿 2. 1 托管 数据 仓库 

一 个 托管 数据 仓库 拥有 并 不 亚 于 现场 数据 仓库 ， 并 具有 与 其 几乎 相同 的 功能 ， 但 是 它 不 消耗 客户 端的 
计算 机 资源 。 托 管 数据 仓库 提供 了 计算 机 升级 、 网 络 升级 、 软 件 认 证 、 内 部 开发 、 内 部 支持 和 维护 的 成 本 
优势 ， 并 且 提 供 商 务 智 能 服务 。 

托管 数据 仓库 具有 如 下 优点 : 
需要 最 小 的 基础 设施 投资 
内 部 系统 的 开放 能 力 
释放 现金 流 
提供 强 有 力 的 解决 方案 
实施 强 有 力 的 解决 方案 以 支持 增长 
提供 高 质量 的 设备 和 软件 
实现 快速 的 连接 
实现 远程 获取 数据 
帮助 公司 专注 于 其 核心 业务 
满足 大 数据 量 的 存储 需求 

尽管 具有 以 上 优点 ， 但 托管 数据 仓库 却 并 不 一 定 适 合 每 个 组 织 。 一 个 财政 收入 超过 500 万 美元 的 大 公 
司 在 没有 充分 利用 互联 网 基础 设施 和 本 员工 的 情况 下 会 损失 资金 。 其 次 ,公司 认为 引入 外 包 应 用 程序 会 导 
致 他 们 失去 对 数据 的 控制 ， 那 么 就 不 会 依赖 于 商务 智能 服务 提供 商 。 最 后 ， 不 利于 托管 数据 仓库 的 最 重要 
的 也 是 最 普遍 的 因素 是 外 包 敏 感应 用 程序 是 不 明智 的 ， 因 为 在 安全 和 隐私 方面 存在 隐患 。 

来 源 : Based on M. Thornton and M. Lampa, “Hosted Data Warehouse,” Journal of Data Warebousing , Vol. 7 , No. 2 , 2002 , 

pp. 27-34; and M. Thornton, “ What About Security? The Most Common, but Unwarranted, Objection to Hosted Data 
Warehouses ,” DM Review , Vol. 12 ,No. 3 ,March 18 ,2002 , pp. 30-43. 


2.5.4 数据 仓库 中 的 数据 表示 


图 2-1 表示 了 一 种 典型 的 数据 仓库 结构 。 数 据 仓库 架构 也 有 很 多 改进 版 〈 见 图 2-5) 。 不 论 
是 何 种 架构 ， 数 据 仓 库 中 的 数据 表示 一 直 都 是 基于 维度 建 模 的 理念 。 维 度 建 模 是 一 个 支持 大 量 
查询 访问 的 基于 检索 的 系统 。 数 据 仓 库 中 数据 的 存储 和 表示 不 仅 要 适合 并 且 能 提高 复杂 多 维 查 
询 的 处 理 能 力 。 通 常 ， 星 形 模式 和 雪花 模式 是 数据 仓库 中 实现 维度 建 模 的 方法 。 

星 形 模式 (有 时 被 称 做 星 形 关联 模式 ) 是 最 普遍 使 用 和 最 简单 的 维度 建 模 。 一 个 星 形 模 式 
包含 一 个 中 心事 实 表 和 多 个 相关 的 维度 表 ( Adamson，2009) 。 事 实 表 包含 了 大 量 与 观测 事实 和 
外 部 链接 〈 例 如 ， 外 键 ) 相对 应 的 行 数据 。 事 实 表 包含 了 用 来 进行 决策 分 析 和 查询 报表 的 描述 
属性 ， 外 键 用 来 链接 维度 表 。 决 策 分 析 属 性 包括 性 能 测量 指标 、 操 作 指标 、 聚 集 度量 值 〈 例 如 ， 
销售 数据 、 客 户 保 留 率 、 毛 利润 、 产 品 成 本 、 废 品 率 ) 和 其 他 所 有 指标 ， 这 些 指标 用 来 分 析 企 
业 的 业绩 。 换 名 话说， 事实 表 主 要 解决 了 数据 仓库 用 什么 来 支持 决策 分 析 的 问题 。 

围绕 在 中 心事 实 表 周围 〈 通 过 外 部 健 相 连 ) 的 是 维度 表 。 维 度 表 包含 了 中 心事 实 表 列 数据 
的 分 类 和 聚合 信息 。 维 度 表 包含 用 以 描述 事实 表 数 据 的 属性 ， 并 对 数据 进行 分 析 和 总 结 。 维 度 表 
与 中 心事 实 表 的 行 具有 一 对 多 的 关系 。 在 查询 中 ， 维 度 可 以 对 事实 表 中 的 数据 值 进 行 切片 和 切 
块 ， 以 满足 特定 的 信息 需求 。 星 形 模式 使 得 只 读数 据 库 结构 具有 如 下 特点 : 快速 的 查询 响应 时 
间 、 简 易 化 和 维护 简单 。 图 2-8a 展示 了 一 个 简单 的 星 形 模式 。 星 形 模式 是 雪花 模式 的 一 种 特殊 
情形 。 

雪花 模式 是 多 维 数据 库 中 表 的 逻辑 排 到 ， 其 实体 关系 图 表现 为 雪花 状 。 与 星 形 模式 相似 的 
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是 ,雪花 模 式 由 中 心事 实 表 (通常 只 有 一 个 ) 表示 ， 中 心事 实 表 与 复杂 维度 相连 。 在 雪花 形 模 
式 中 ， 维 度 被 标准 化 为 多 张 维 度 表 ， 而 星 形 模式 中 的 维度 被 非 规 范 化 为 单个 维度 ， 单 个 维度 由 单 
张 表 表示 。 图 2-8b 展示 了 一 个 简单 的 雪花 模式 。 














Dimension 
geography 


[Country] 
E 





























a) 星 形 模式 b) 雪花 模式 





图 2-8 多 维 表 


2.5.5 ”数据 仓库 中 的 数据 分 析 


当 数 据 被 正确 地 存储 存在 数据 仓库 后 ， 可 以 采用 多 种 方法 使 用 数据 支持 组 织 的 决策 制定 。 
SE TERE lA], OLAP 是 数据 仓库 领域 中 应 用 最 广 的 数据 分 析 技 术 ， 并 且 由 于 数据 容量 的 指数 增长 以 
及 数据 驱动 分 析 的 商业 价值 逐渐 得 到 了 认可 ，OLAP 已 日 益 普 及 。 通 过 对 组 织 数据 资源 库 (例如 
数据 仓库 、 数 据 集 市 ) 的 多 维 分 析 查 询 ，OLAP 能 够 快速 解决 特定 的 问题 。 


2.5.6 OLAP 5 OLTP 


OLTP 是 用 于 描述 交易 处 理 系统 的 专业 术语 ， 这 些 交 易 处 理 系 统 主要 负责 获取 和 存储 与 日 常 
业务 相关 的 数据 ， 如 ERP, CRM, SCM, POS 等 。OLTP 系统 处 理 关 键 业 务 需 求 ， 使 日 常 业 务 交 
易 自 动 进行 并 产生 实时 报表 和 常规 分 析 。 但 是 ，OLTP 系统 不 能 进行 大 数据 量 的 特定 分 析 和 复杂 
查询 。 男 一 方面 ， 通 过 对 组 织 数据 更 高 效率 的 特定 分 析 ，OLAP 能 够 满足 以 上 需求 。OLAP 与 
OLTP 紧密 联系 ; OLAP 通过 OLTP 获取 数据 ， 而 OLTP 使 业务 交易 自动 进行 ，OLAP 制定 的 决策 
管理 着 这 些 业 务 交 易 。 表 2-5 展示 了 OLTP 和 OLAP 之 间 的 区 别 。 


2.5.7 OLAP 操作 


OLAP 中 最 主要 的 操作 结构 是 基于 称 为 立方 体 的 概念 。OLAP 中 的 立方 体 是 一 种 支持 快速 数 
据 分 析 的 多 维 数据 结构 〈 实 际 的 或 虚拟 的 ) 。 它 也 可 以 被 定义 为 能 够 进行 多 维度 高 效率 操作 和 数 
据 分 析 。 立 方 体 中 的 数据 结构 旨 在 克服 关系 型 数据 库 的 局 限 性 : 关系 型 数据 库 不 适合 大 数据 量 
的 实时 分 析 。 相 反 ， 关 系 型 数据 库 更 适合 一 系列 的 交易 操作 (增加 、 删 除 和 修改 数据 )。 尽 管 关 
系 型 数据 库 中 有 很 多 报表 生成 工具 ， 但 是 执行 涉及 多 张 数据 库 表 的 多 维 查询 却 很 慢 。 

通过 改变 数据 定位 和 定义 分 析 计 算 ， 分 析 人 员 运 用 OLAP 可 以 通过 数据 库 和 计算 机 屏幕 浏览 
数据 的 一 个 特定 子 集 〈 和 其 随时 间 不 断 发 展 的 子 集 ) 。 这 些 由 用 户 发 起 的 、 通 过 规范 切片 (经 过 
旋转 ) 和 上 钻 / 钻 取 〈 经 过 聚集 和 分 类 ) 获取 数据 的 动作 有 时 被 称 做 “切片 和 切 块 "。 通 常 使 用 
的 OLAP 操作 包括 切片 和 切 块 、 钻 取 、 上 卷 和 旋转 。 
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表 2-5 OLTP 与 OLAP 的 对 比 










决策 支持 ， 提 供 业务 和 管理 查询 功能 
数据 仓库 和 数据 集 市 (专注 于 准确 性 和 完整 性 
的 标准 化 数据 资源 库 ) 

特定 的 、 多 维 的、 广泛 关注 的 报表 和 查询 
多 处 理 器 、 大 存储 量 的 专业 数据 库 

缓慢 (密集 的 、 复 杂 的 、 大 规模 的 资源 查询 ) 


执行 日 常 业务 功能 
交易 数据 库 (专注 于 效率 和 连贯 性 的 标准 化 数据 
资源 库 ) 
常规 、 定 期 、 集 中 关注 的 报表 
普通 关系 型 数据 库 
快速 (记录 业务 交易 和 常规 报表 ) 












数据 源 



































e WA: 切片 是 多 维 数组 的 子 集 (通常 是 二 维 表示 ) ， 它 与 一 个 或 多 个 不 属于 本 子 集 的 维 
度数 值 相对 应 。 图 2-9 展示 了 对 一 个 三 维 立 方 体 进行 的 简单 切片 操作 。 

。 切 块 : 切 块 操作 是 对 多 维 数据 立方 体 ， 按 二 维 以 上 进行 的 切片 操作 。 

钻 取 /上 钻 : 钻 取 或 上 钻 是 一 种 特定 的 OLAP 技术 ， 借 此 用 户 可 以 获取 最 概括 到 最 详细 的 数据 。 

上 卷 : 一 个 上 卷 动作 包括 计算 所 有 一 维 或 多 维 的 数据 关系 。 为 此 ， 应 该 定义 一 个 计算 关系 或 公式 。 

旋转 : 旋转 是 用 来 改变 报表 或 特定 查询 的 维度 方向 。 

OLAP 的 种 类 OLAP 分 为 几 类 ; 其 中 ，ROLAP、MOLAP 和 HOLAP 使 用 得 最 为 普遍 。 

关系 型 在 线 分 析 处 理 (Relational Online Analgtical Processing, ROLOP) 是 多 维 在 线 分 析 处 理 
(Mulidimimensional OLAP, MOLAP) 技术 的 替代 。ROLAP 和 MOLAP 分 析 工 具 都 是 使 用 多 维 数据 
模型 分 析 数 据 ，ROLAP 的 不 同 之 处 在 于 它 不 需要 进行 预先 计算 和 信息 存储 。 相 反 ， 当 终端 用 户 
需要 时 ，ROLAP 工具 将 获取 关系 型 数据 库 中 的 数据 并 生成 SQL 查询 来 计算 适当 级 别 的 信息 。 
ROLAP 可 以 产生 附加 数据 库 表 (汇总 表 或 聚集 ) ， 这 些 表 可 以 总 结 在 任意 维度 组 合 下 的 数据 。 应 
iB iit ROLAP 使 用 的 关系 型 数据 库 。 与 OLTP 使 用 的 数据 库 相 比 ，ROLAP 使 用 的 数据 库 性 
能 良好 。 因 此 ，ROLAP 还 创建 数据 的 额外 备份 。 
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MOLAP 是 ROLAP 技术 的 替代 。MOLAP 与 ROLAP 的 显著 差异 在 于 它 需 要 在 多 维 数据 立方 体 
中 进行 预先 计算 和 信息 存储 ， 这 些 操 作 被 称 作 做 处 理 。MOLAP 将 数据 存储 在 优化 后 的 多 维 数组 
仓库 中 ， 而 不 是 关系 型 数据 库 中 (通常 ROLAP 使 用 关系 型 数据 库 ) 。 

MOLAP 和 ROLAP 之 间 的 不 良 交易 需要 使 用 ETL， 并 使 得 查询 速度 缓慢 。 人 们 创建 了 更 好 的 
查询 方法 使 以 上 两 种 方法 的 优 缺 点 都 得 到 优化 。 这 些 查 询 方法 形成 了 混合 型 在 线 分 析 处 理 〈Hy- 
brid Online Analytical Processing，HOLAP) ， 它 结合 了 ROLAP 与 MOLAP 两 者 的 特性 。HOLAP 可 
以 将 部 分 数据 存储 在 MOLAP 存储 器 中 ， 将 另 一 部 分 数据 存储 在 ROLAP 存储 器 中 。 立 方 体 设计 
者 对 此 分 区 的 控制 程度 因 产 品 的 不 同 而 不 同 。 技 术 前 沿 2. 2 介绍 了 运用 MicroStrategy BI 工具 进行 
简单 分 析 的 案例 。 


技术 前 沿 2. 2 MicroS 

MicroStrategy 是 商务 智能 、 数据 仓库 管理 系统 和 商业 报表 解决 方案 领域 的 主流 独立 供应 商 。 近 来 ， 此 市 
场 中 的 其 他 大 型 供应 商 纷纷 被 大 型 T 公司 并 购 重 组 : Oracle 收购 了 Hyperion, IBM 收购 了 Congos, SAP 收购 
T Business Objects。 尽 管 存在 这 些 并 购 ， 但 商务 智能 和 数据 仓库 领域 仍然 是 积极 的 、 充 满 活力 与 机 遇 的 。 

下 面 是 运用 MicroStrategy 软件 分 析 假设 的 商业 问题 。TDUN 网 站 展示 了 一 个 更 加 全 面 的 案例 。 设 想 这 样 
的 场景 ,你 (一 个 全 球 电信 公司 的 销售 副 总 ) 将 去 欧洲 出 差 。 在 星期 一 会 见地 区 销售 人 员 之 前 ， 你 想 知 道 
上 季度 (2004 年 第 4 季度 ) 销售 代表 的 业务 情况 。 你 可 以 访问 MicroStrategy 网 站 创建 一 个 特定 报表 。 为 了 
创建 这 份 报告 和 其 他 的 OLAP 报告 ， 你 需要 TeradataStudentNetwork. com 网 站 的 登录 密码 。 这 个 网 站 的 教 
育 用 途 是 免费 的 ， 只 有 你 的 教授 可 以 为 你 获取 登录 密码 ， 从 而 你 可 以 使 用 此 网 站 的 MicroStrategy 软件 和 其 
他 一 系列 的 商务 智能 资源 。 

当 你 登录 了 TeradataStudentNetwork. com 网 站 后 ， 首 先 登 录 到 “Apply & Do” 并 在 “Software” 部 分 选择 
“MicroStrategy BI” 选 项 。 在 “MicroStrategy/BI” 页面， 按 以 下 步骤 操作 : 

1. 点 击 “MicroStrategy Application Modules” 链 接 ， 你 将 登录 到 一 个 页 面 ， 此 页 面 显示 先前 生成 的 Mi- 
croStrategy 应 用 程序 列表 。 

2. 选择 “Sales Force Analysis Modules”。 此 模块 支持 整个 销售 过 程 的 深度 分 析 。 该 分 析 增 加 了 你 的 领 
力 ， 优 化 了 产品 线 ， 利 用 了 组 织 中 最 成 功 的 销售 经 验 ， 并 提升 了 销售 组 织 的 效率 。 

3. 在 “Sales Force Analysis Modules” 页 面 ， 你 会 看 到 3 个 选项 : View, Create 和 Tolls。 在 “View” 部 
分 ， 点 击 “Shared Reports” 链 接 ， 你 将 登录 一 个 具有 大 量 已 生成 的 共享 报表 的 页 面 。 

4. 在 “Shared Reports” 界 面 ， 点 击 “Pipeline Analysis” 文 件 夹 。 渠 道 分 析 报 表 分 析 了 销售 渠道 中 所 有 
开放 性 机 会 与 交易 。 这 些 报表 可 以 衡量 销售 渠道 的 当前 状态 ， 观 测 其 改变 趋势 和 关键 事件 ， 并 识别 
关键 开放 机 会 。 你 可 以 检查 每 个 销售 代表 的 销售 渠道 以 及 他 们 是 否 完成 了 上 季度 的 销售 指标 。 

5. 在 “Pipeline Analysis” 页 面 ， 点 击 名 为 “Current Pipeline vs. Quota By Sales Region and District” 报 表 。 
这 份 报表 展示 了 每 个 销售 地 区 销售 渠道 的 当前 状态 。 它 也 能 反映 此 季度 的 目标 配额 是 否 能 完成 。 

6. 在 “Current Pipeline vs. Quota By Sales Region and District” 页 面 选 择 ( 单 击 )“2004 Q4” 作 为 报表 参 
数 ， 这 表示 你 想 查 看 销售 人 员 上 季度 配额 的 完成 情况 。 

7. 点 击 页 面 底部 的 “Run Report” 按 钮 ， 运 行 报表 。 你 将 登录 一 个 销售 报表 页 面 ， 此 处 计算 了 3 个 欧 
洲 销售 区 域 的 所 有 指标 值 。 在 这 份 互 动 报表 中 ， 通 过 下 拉 组 合 框 可 以 很 简单 地 选择 从 欧洲 到 美国 或 
者 加 拿 大 的 区 域 ,或 者 你 可 以 点 击 进入 3 个 欧洲 区 域 中 的 一 个 ,来 查看 此 区 域 的 详细 分 析 。 


2. 5 节 复 习题 


1. 列举 数据 仓库 的 优点 。 

2. 列举 选择 数据 仓库 供应 商 的 标准 ， 并 说 明 它 们 为 什么 是 重要 的 。 
3. 什么 是 OLAP， 如 何 与 OLTP 进行 区 分 ? 

4. 什么 是 立方 体 ? 什么 是 钻 取 /上 钻 /切片 和 切 块 ? 
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5. 什么 是 ROLAP、MOLAP 和 HOLAP? 与 OLAP 有 何不 同 ? 


2.6 数据 仓库 的 实施 问题 

实施 数据 仓库 项 目 需要 投入 大 量 精 力 ， 还 必须 根据 已 建立 的 方法 来 计划 和 执行 。 然 而 ， 这 个 
项 目的 生命 周期 涉及 很 多 方面 ， 没 有 人 能 够 成 为 各 个 领域 的 专家 。 这 里 我 们 将 讨论 与 数据 仓库 
相关 的 具体 概念 和 案例 。Inmon (2006) 文献 提供 了 一 系列 的 方法 ,数据 仓库 项 目的 策划 人 可 以 
用 这 些 方法 来 实施 项 目 。 

Reeves (2009) 和 Solomon (2005) 文献 给 出 了 与 关键 问题 相关 的 准则 ， 指 出 了 应 当 衡 量 的 风 
险 ， 并 提供 了 可 以 保证 数据 仓库 成 功 实施 的 流程 。 他 们 汇总 了 11 项 可 并 行 执行 的 重要 任务 列表 : 
. 建立 服务 级 别 的 合同 和 数据 更 新 需求 
识别 数据 源 和 政府 政策 
. 数据 质量 计划 
. 数据 模型 设计 
.ETL 工具 的 选择 
. 关系 型 数据 库 软件 和 平台 的 选择 
. 数据 传输 
. 数据 转换 
. 协调 流程 

10. 执行 和 完成 计划 

11. 终端 用 户 支 持 

参考 以 上 准则 可 增加 组 织 成 功 的 机 会 。 假 设 一 个 企业 级 数据 仓库 的 大 小 和 规模 ， 未 预料 到 
这 些 问 题 会 极 大 增加 项 目 失败 的 风险 。 

Hwang and Xu (2005) 文献 对 数据 仓库 成 功 案例 进行 了 深入 研究 。 结 果 显 示 数 据 仓 库 项 目的 成 功 
是 多 方面 努力 的 结果 ，Hwang 和 Xu 提出 ， 建 立 一 个 数据 仓库 应 以 改善 用 户 效率 为 目标 。 这 样 做 的 显著 
好 处 是 即时 的 检索 信息 和 信息 质量 的 提升 。 研 究 结 果 也 显示 项 目的 成 功 取决 于 多 方面 因素 。 

人 们 期 望 了 解 他 们 的 BI 和 数据 仓库 项 目 与 其 他 公司 的 项 目 相 比 到 底 有 多 成 功 。Ariyachandra 
and Waston (2006a) 文献 提出 了 BI 和 数据 仓库 项 目 成 功 的 衡量 标准 。Waston et al. (1999) 文献 研 
究 了 数据 仓库 的 失败 案例 。 他 们 的 研究 成 果 显 示人 们 对 “失败 ”有 不 同 的 定义 ， 这 一 结果 也 得 到 了 
Ariyachandra and Waston (2006a) 文献 的 证 实 。 数 据 仓 库 协 会 (tdwi. org) 提出 了 数据 仓库 成 熟 度 
模型 ， 可 供 企 业 描 述 数据 仓库 的 发 展 历程 。 该 模型 提供 一 种 便捷 方法 来 衡量 组 织 机 构 的 数据 仓库 的 
实施 动力 ， 现 在 在 哪 ， 下 一 步 该 怎么 做 。 该 成 熟 度 模型 由 6 个 阶段 组 成 : 孕育 期 、 初 创 期 、 发 育 
期 、 成 长 期 、 成 熟 期 、 衰 退 期 。 商 业 价 值 随 着 模型 中 的 各 个 阶段 而 增长 。 这 些 阶 段 依 据 一 系列 的 特 
性 而 划分 ， 包括 系统 范畴 、 分 析 结 构 、 管 理 层 观念 、 分 析 类 型 、 领 导 力 、 资 金 投入 、 技 术 平 台 、 变 
革 管 理 、 行 政 管理 。 详 情 请 参阅 Echerson et al. (2009) 和 Echerson (2003) 文献 。 

Saunders (2009) 文献 提供 了 一 种 易于 理解 的 开发 数据 仓库 方法 。Weir (2002) 专门 给 出 了 
实施 数据 仓库 解决 方案 的 最 佳 实践 。 下 面 是 最 明确 的 实施 准则 列表 : 

© 解决 方案 必须 符合 企业 战略 和 商业 目标 。 
行政 人 员 、 管 理 人 员 和 用 户 必 须 全 力 投入 。 
管理 用 户 对 整个 解决 方案 的 期 望 很 重要 。 
数据 仓库 必须 逐步 建立 。 
项 目 初期 必须 考虑 适应 性 和 可 扩展 性 。 
解决 方案 必须 由 IT 和 商业 人 员 共 同 管理 (这样 一 个 良性 的 业务 一 一 供应 关系 才能 建立 ) 。 


DooNeuwmwmhP 一 


第 2 章 数据 仓库 


只 有 加 载 数 据 与 决策 分 析 有 关 的 ， 已 经 清理 的 ， ae PEAY AE Lan 的 内 
部 及 外 部 ) 的 数据 。 

不 要 忽视 培训 需求 〈 目 标 用 户 可 能 并 不 精通 电脑 ) 。 

选择 与 现 有 设备 相符 的 可 靠 工 具 和 方法 。 

注意 组 织 人 员 、 政 策 和 地 盘 之 争 。 


数据 仓库 解决 方案 存在 众多 风险 。 其 中 大 部 分 风险 也 存在 于 其 他 IT 项目 中 ， 但 数据 仓库 项 
目的 风险 更 严重 ， 因 为 数据 仓库 项 目的 成 本 高 、 需 要 时 间 和 资源 、 规 模 巨 大 。 在 项 目 启动 时 就 应 
该 评估 各 种 风险 。 实 施 一 个 成 功 的 数据 仓库 项 目 ， 应 当 谨慎 衡量 各 种 风险 和 避免 以 下 问题 : 


错误 的 项 目 发 起 ”你 需要 一 个 拥有 所 需 资 源 的 执行 赞助 商 以 支持 和 赞助 数据 仓库 项 目 。 
你 也 需要 一 个 执行 项 目 驾 驭 者 ， 他 能 赢得 其 他 执行 人 员 的 尊重 ， 对 技术 抱 有 良性 的 质疑 
态度 ,果断 并 且 灵 活 。 同 时 还 需要 一 个 IS/IT 经 理 来 主持 项 目 。 
制定 不 可 能 完成 的 目标 ”你 不 想 在 关键 时 刻 让 管理 层 失望 。 每 个 数据 仓库 项 目 都 有 两 个 
阶段 : 第 一 阶段 是 销售 阶段 ， 这 个 阶段 是 向 需要 访问 资源 的 人 销售 能 带 来 的 利益 ， 说 服 
他 们 实施 你 的 数据 仓库 计划 。 第 二 阶段 是 努力 实现 第 一 阶段 中 许诺 的 目标 。 比 如 仅仅 是 
从 1 ~700 万 的 利益 ， 你 很 有 希望 实现 这 个 目标 。 
从 事 与 政 治 不 相关 行为 不 要 宣传 数据 仓库 能 帮助 管理 人 员 更 好 地 制定 决策 ， 这 样 说 容 
易 暗示 你 认为 目前 他 们 的 决策 做 得 不 好 。 应 该 告诉 他 们 将 从 数据 仓库 中 获得 有 用 的 信息 
来 帮助 决策 制定 。 
将 能 利用 的 数据 加 载 到 数据 仓库 中 不 要 让 数据 仓库 成 为 一 个 数据 垃圾 堆 。 这 将 导致 系 
统 运 行 速度 缓慢 。 实 时 计算 和 分 析 逐 渐 成 为 趋势 。 实 时 加 载 数据 时 ， 数 据 仓库 必须 关闭 。 
相信 数据 仓库 设计 与 传统 数据 库 设 计 相 同 ”一 般 来 说 ， 不 是 这 样 的 。 数 据 仓库 的 目标 是 
访问 全 部 记录 ， 而 传统 数据 库 访问 一 个 或 一 些 记 录 。 存 储 内 容 也 不 同 ， 在 数据 组 织 方式 
上 差异 尤为 明显 。DBMS 趋向 于 非 元 余 的 、 标 准 化 的 和 关系 型 ， 而 数据 仓库 是 元 余 的 、 
非 标准 化 的 和 多 维度 的 。 
选择 一 个 面向 技术 而 非 面向 用 户 的 数据 仓库 管理 员 ”成功 实施 数据 仓库 的 关键 之 一 在 于 
理解 用 户 的 需求 ， 而 不 是 为 了 技术 追逐 先进 的 技术 。 
专注 传统 的 内 部 关系 型 数据 ， 忽 视 外 部 数据 、 文 档 、 图 片 甚至 音频 和 视频 的 价值 ”数据 
有 很 多 种 格式 ， 同 时 必须 在 正确 的 时 间 、 以 正确 的 格式 提供 给 正确 的 人 员 。 它 们 必须 被 
合理 分 类 。 
用 重复 而 且 冲 突 的 数据 定义 交付 数据 数据 清理 是 数据 仓库 中 的 关键 问题 。 它 包括 协调 
冲突 的 数据 定义 和 对 组 织 内 的 数据 进行 格式 化 。 政 策 上 来 说 ， 这 可 能 很 困难 ， 因 为 它 通 
常 需要 在 行政 级 别 上 改变 。 
相信 和 性能、 能力 和 可 扩展 性 的 承诺 通常， 数据 仓库 需要 比 开始 预算 时 具有 更 强 的 性 能 
和 速度 。 项 目 初期 的 计划 需要 升级 。 
相信 一 旦 数据 仓库 建立 并 运行 起 来 ， 你 的 问题 就 多 了 DSS/BI 项 目 倾 向 于 持续 性 展开 。 
每 次 部 署 都 是 对 原型 过 程 的 兴 代 。 这 将 一 直 需 要 给 数据 仓库 增加 更 多 不 同 的 数据 ， 同 时 
也 要 给 现 有 和 新 增 的 决策 制定 者 提供 附加 分 析 工 具 。 高 能 力 和 每 年 预算 必须 完成 ， 因 为 
成 功 将 带 来 成 功 。 数 据 仓 库 项 目 是 一 个 持续 性 的 过 程 。 
专注 于 特殊 数据 挖掘 、 定 期 生成 报表 而 不 是 预警 ”数据 仓库 中 信息 的 发 展 过 程 如 下 : 
(1) 从 旧 系 统 中 提取 数据 ， 清 理 数 据 并 添加 到 数据 仓库 中 ; (2) 理解 用 户 需 求 才 能 支持 
特殊 报表 ; (3) 将 特殊 报表 转换 成 定期 计划 报表 。 理 解 并 满足 客户 需求 看 起 来 很 容易 ， 
但 实际 情况 却 不 乐观 。 管 理 者 业务 繁忙 ， 又 需要 花费 时 间 来 阅读 报表 。 预 警 系统 比 某 一 
时 期 的 报表 系统 更 好 ， 它 使 数据 仓库 任务 成 为 关键 。 预 警 系统 监测 数据 流入 数据 仓库 的 
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过 程 ， 一 旦 关键 事件 发 生 就 产生 预警 ， 通 知 相 应 的 关键 人 员 。 

在 大 多 数组 织 中 ， 只 有 在 高 级 管理 层 对 项 目 开发 的 强烈 支持 下 并 且 项 目 经 理 在 组 织 结构 中 
拥有 较 高 职位 时 ， 数 据 仓库 项 目 才能 成 功 。 上 述 因素 对 大 规模 IT 项 目 可 能 是 正确 的 ， 但 对 数据 
仓库 的 实现 更 加 重要 。 数 据 仓 库 的 成 功 实施 建立 了 一 个 支持 组 织 决策 分 析 的 结构 性 框架 ， 在 某 
些 情 况 下 也 提供 可 以 访问 组 织 客户 和 供应 商 信息 的 综合 性 SCM。 网 络 数据 仓库 的 实施 (有 时 又 
称 为 网 络 仓库 ) 使 得 访问 大 量 数据 更 加 便捷 ， 但 是 却 很 难 衡量 数据 仓库 的 硬 效益 。 硬 效益 的 定 
义 是 可 表示 为 货币 形式 的 组 织 效益 。 很 多 公司 的 IT 资源 是 有 限 的 ， 必 须 优先 安排 一 些 项 目 。 管 
理 层 的 支持 和 优秀 的 项 目 经 理 可 以 保障 数据 仓库 项 目 拥有 成 功 实施 所 必需 的 资源 。 数 据 仓 库 资 
源 需 付出 巨额 成 本 ， 在 某 些 情况 下 ， 还 需要 高 端 处 理 器 和 大 量 可 直接 访问 的 存储 设备 。 网 络 数据 
仓库 还 有 特殊 安全 要 求 来 确保 仅 授权 用 户 能 访问 数据 。 

用 户 参 与 到 数据 和 访问 建 模 开发 中 ， 这 是 数据 仓库 开发 的 关键 成 功 因 素 。 在 数据 建 模 中 ， 需 
要 专门 知识 来 判断 所 需要 的 数据 ， 定 义 与 数据 有 关 的 业务 规则 ， 并 决定 需要 哪 种 聚 类 和 计算 。 访 
问 建 模 可 用 来 决定 如 何 从 数据 仓库 中 提取 数据 ， 通 过 确定 哪些 数据 需要 索引 来 协助 定义 仓库 的 
物理 定义 。 它 也 指出 是 否 需要 依赖 数据 集 市 来 促进 信息 检索 。 开 发 和 实施 数据 仓库 需要 一 系列 
团队 技能 。 这 些 技能 包括 数据 仓库 技术 和 开发 工具 的 深层 知识 。 如 上 所 述 ， 源 系统 和 开发 技术 涉 
及 大 量 成 本 投入 和 开发 进程 ， 它 们 可 被 用 来 加 载 和 维护 数据 仓库 。 

应 用 案例 2.6 展示 了 保险 行业 大 规模 实施 集成 数据 仓库 的 典型 案例 。 





应 用 案例 2.6 一 个 大 型 保险 公司 运用 AXIS 集成 企业 数据 


美国 的 一 个 大 型 保险 公司 开发 了 一 个 集成 数据 管理 和 报表 系统 ， 用 来 提供 企业 业绩 和 风 
险 的 统一 视图 ， 该 系统 在 大 量 的 业务 单元 计划 和 管理 活动 中 成 为 新 的 战略 性 角色 。 

XYZ 保险 公司 (不 显示 实名 ) 和 它 的 附属 公司 组 成 了 世界 上 最 大 的 金融 服务 组 织 。 一 个 
世纪 前 ，XYZ 保险 公司 已 经 成 长 并 将 实施 业务 多 元 化 ， 成 为 了 家 庭 财 产 保 险 、 意 外 保险 、 人 
寿 保险 、 退 休 保险 、 资 产 管理 和 战略 投资 服务 领域 的 主流 供应 商 。 如 今 ， 该 公司 成 为 了 一 个 
工业 巨头 ， 拥 有 超过 1500 亿美 元 的 法 定 资 产 、 年 收入 超过 150 亿美 元 、 员 工 超 过 20000 名 并 
拥有 超过 1000 家 公司 在 其 保护 伞 下 运行 。 

问题 

对 于 它 的 大 部 分 业务 ， 投 保 该 公司 的 家 庭 相 当 分 散 并 且 独 立 。 随 着 时 间 的 迁移 ， 企 业 逐 
渐 半 大 ， 这 种 分 散 管 理 方式 使 得 公司 业绩 报表 和 决策 制定 截然 不 同 。 由 于 对 企业 业绩 看 法 不 
一 致 ， 公 司 报表 是 无 远见 的 、 分 散 的 、 缓 慢 的 、 并 且 通 常 是 不 准确 的 。 获 取 、 巩 固 、 清 除 和 
验证 基础 财务 信息 的 重担 使 得 企业 不 能 运用 有 效 分 析 和 深刻 见解 来 支持 管理 活动 。 

为 了 解决 集成 的 迫切 需要 ，XYZ 保险 公司 于 2004 年 1 月 发 起 了 需求 分 析 倡 议 ， PETA 
一 数据 管理 系统 。 此 集成 系统 称 做 AXIS。 预 计 它 能 够 提供 实时 、 准 确 和 有 效 的 顶尖 水 平 的 报 
表 工 具 和 分 析 服 务 ， 可 以 支持 企业 级 计划 、 资 金管 理 、 风 险 评 估 和 管理 决策 制定 。 

解决 方案 

XYZ 保险 公司 决定 运用 最 佳 组 合 方法 开发 AXIS。 与 从 单一 供应 商 购买 所 有 组 件 不 同 ， 它 
将 选择 最 适合 各 模块 分 析 需 求 的 组 件 。 下 列 工 具 / 供 应 商 可 供 选 择 : 

o 数据 仓库 : AXIS 系统 具有 集中 星 形 拓扑 架构 ，Teradata 数据 仓库 处 于 中 心 位 置 。 

ee 提取、 传输、 集成 和 元 数据 管理 : Informatica Powercenter 处 理 从 源 系 统 到 AXIS 环境 
= (fe AXISH PHAR) 的 所 有 数据 传输 。 
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© 报表 和 分 析 : AXIS 系统 中 所 有 可 视 化 的 报表 和 分 析 功 能 是 由 一 整套 的 Hyperion 工具 
提供 的 ， 其 中 包括 Essbase、Planning、Reporter、Analyzer 和 Intelligence, 
© 元 数据 管理 : 运用 Kalido 主 数据 管理 系统 (Master Data Management, MDM) 开发 和 
维护 引用 数据 的 层次 结构 、 维 度 和 界面 翻译 和 转换 的 业务 规则 。 
结果 
即使 一 个 拥有 XYZ 保险 业 资 源 的 企业 ， 实 施 AXIS 系统 也 绝 非 易 事 。 它 需要 生成 超过 200 个 业 
务 源 系统 界面 。 顶 峰 时 ， 开 发 团队 雇佣 了 280 名 员工 (60% 来源 于 内 部 IT 和 业务 部 门 ，40% 来源 
于 外 部 承包 商 ) ， 他 们 对 项 目 投入 了 600000 工时 。 具 备 完整 功能 的 系统 在 2006 年 4 月 发 布 。 
拥有 技术 和 支持 流程 的 标准 化 企业 信息 资产 ，XYZ 保险 公司 能 够 加 强大 部 分 劳动 密集 型 
业务 和 报表 生成 活动 。 这 释放 了 人 力 资本 和 企业 资源 ， 用 于 更 具 战 略 意义 和 更 高 价值 的 企业 
活动 。 另 一 个 益处 是 企业 的 业务 单元 拥有 了 一 致 和 准确 的 业务 信息 可 供 决策 者 参考 。AXIS 系 
统 最 重要 的 好 处 可 能 是 它 将 XYZ 保险 公司 变 成 了 敏捷 企业 。 因 为 企业 管理 人 员 可 以 及 时 地 访 
问 企业 级 数据 ， 业 务 单元 可 以 准确 并 迅速 地 应 对 变化 的 情况 (解决 问题 并 利用 机 会 )。 
来 源 : Based on Teradata,“ A Large US-based Insurance Company Masters Its Finance Data,” Teradata Industry Solution ,terada- 
ta. com/t/WorkArea/DownloadAsset. aspx? id =4858( accessed July 2009). 

















大 型 数据 仓库 和 可 扩展 性 

除了 动态 性 之 外 ， 数 据 仓 库 需 要 支持 可 扩展 性 。 与 扩展 性 相关 的 最 主要 问题 有 数据 仓库 的 
数据 量 、 数 据 仓库 预计 增长 的 速度 、 并 发 用 户 的 数量 、 用 户 查询 的 复杂 度 。 数 据 仓 库 必 须 可 以 水 
平和 垂直 地 扩展 。 由 于 数据 量 增 长 和 支持 新 业务 功能 的 需求 ， 数 据 仓库 需 要 扩展 。 数 据 量 增长 也 
许 是 当前 周期 的 数据 (例如 当月 的 数据 ) 或 者 历史 数据 增加 的 结果 。 

Hicks (2001) 文献 描述 了 大 型 数据 库 和 数据 仓库 。Wal- Mart 不 断 增加 它 的 大 型 数据 仓库 的 
规模 。Wal- Mart 被 认为 可 以 运用 数 百 太 字 节 (TB) 的 数据 仓库 来 研究 销售 趋势 ， 追 踪 库 存 和 其 
他 任务 。IBM 最 近 公 布 了 其 50TB 数据 仓库 基准 (IBM，2009) 。 美 国 国 防 部 门 正 在 使 用 一 个 5PB 
(Peta byle) 数据 仓库 和 存储 库 以 存储 900 万 军事 人 员 的 医学 记录 。 因 为 需要 存储 新 闻 素 材 ， 所 
以 CNN 也 有 一 个 规模 达 PB 级 的 数据 仓库 。 

如 果 一 个 数据 仓库 的 大 小 呈 指 数 级 增长 ， 那 么 它 的 可 扩展 性 将 成 为 重要 问题 。 高 可 扩展 性 
意味 着 查询 和 其 他 数据 访问 功能 ， 将 随 着 数据 仓库 大 小 呈 线 性 增长 〈 理 想 化 的 ) 。 请 查看 Rosen- 
berg (2006) 文献 关于 提高 查询 性 能 的 方法 。 实 际 上 ， 人 们 已 开发 出 专门 方法 来 创建 可 扩展 数据 
仓库 。 当 管理 数 百 太 字 节 TB 或 更 多 的 数据 时 ， 可 扩展 性 将 很 难 实现 。TB 级 数据 具有 相当 大 的 惯 
性 ， 占 用 大 量 物 理 空 间 ， 同 时 需要 功能 强大 的 计算 机 。 有 些 公司 使 用 并 行 处 理 器 ， 另 一 些 公 司 运 
用 灵活 的 索引 和 搜索 来 管理 数据 。 有 些 公 司 在 不 同 物理 数据 存储 之 间 传 输 数 据 。 当 越 来 越 多 的 
数据 仓库 达到 PB 级 别 时 ， 将 会 继续 研制 出 越 来 越 好 的 可 扩展 性 解决 方案 。 

Hall (2002) 文献 也 可 解决 可 扩展 性 问题 。AT&T 是 大 型 数据 仓库 部 署 和 应 用 领域 的 行业 领导 者 。 
运用 其 26TB 级 的 数据 仓库 ，AT&T 能 检测 电话 卡 冒 用 ， 调 查 有 关 绑 架 和 其 他 罪行 的 电话 。 它 也 能 计算 
电视 观众 选择 下 一 个 美国 偶像 的 百 万 个 电话 投票 。 

列举 一 个 数据 仓库 成 功 实施 的 案例 ， 见 Edwards (2003) 文献 。Jukic and Lang (2004) 文献 
调查 了 数据 仓库 的 发 展 趋势 ， 并 指出 了 数据 仓库 和 BI 应 用 的 开发 和 支持 与 离 岸 外 包 资源 使 用 的 
特殊 问题 。Davison (2003) 指出 了 IT 离 岸 外 包 一 直 以 每 年 20 多 到 25% 的 速度 增长 。 当 考虑 离 岸 
外 包 数 据 仓库 项 目 时 ， 必 须 认真 考虑 文化 和 安全 因素 ， 请 参阅 (Jukic and Lang, 2004) 。 


2. 6 节 复 习题 
1. DW 实施 过 程 中 可 并 行 执行 的 主要 任务 是 什么 ? 
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2. 列举 并 讨论 最 明确 的 DW 实施 准则 。 
3. 当 开 发 一 个 成 功 的 数据 仓库 时 ， 需 要 考虑 和 避免 的 最 重要 的 风险 和 问题 是 什么 ? 
4. 什么 是 可 扩展 性 ? 它 在 DW 中 是 如 何 应 用 的 ? 


2.7 实时 数据 仓库 

传统 的 数据 仓库 和 BI 工具 专注 于 辅助 管理 者 制定 战略 和 战术 决策 。 增 加 的 数据 量 和 加 快 的 
更 新 速度 ， 从 根本 上 改变 了 数据 仓库 在 现代 企业 中 的 角色 。 对 于 许多 企业 来 说 ， 制 定 快 速 和 一 致 
的 企业 决策 不 仅仅 需要 一 个 传统 数据 仓库 或 者 数据 集 市 。 传 统 数据 仓库 不 再 是 商业 的 关键 。 数 
据 一 般 每 周 更 新 一 次 ， 这 不 能 应 对 近 实 时 的 业务 。 

越 来 越 多 的 数据 快速 进入 数据 仓库 ， 并 要 求 立即 转换 成 决策 ， 这 意味 着 组 织 需要 实时 数据 
仓库 。 因 为 决策 支持 已 成 为 操作 性 的 ， 集 成 BI 需要 闭环 分 析 ， 之 前 的 ODS 将 不 再 支持 现在 的 
需求 。 

2003 年 ， 实 时 数据 仓库 诞生 ， 并 将 这 些 技 术 用 来 支持 运营 决策 。 实 时 数据 仓库 (Real-time 
Data Warehousing, RDW), ， 也 称 为 动态 数据 仓库 (Active DataWare hoursing，ADW)， 是 通过 数据 
仓库 加 载 和 提供 数据 的 过 程 。 它 是 从 EDW 概念 演变 而 来 的 。RDW/ADW 的 动态 特征 补充 和 扩展 
了 传统 数据 仓库 ， 实 现 了 战术 决策 功能 。 企 业 中 直接 与 客户 和 供应 商 接触 的 员工 有 权 很 容易 地 
制定 基于 信息 的 决策 。 当 ADW 直接 给 客户 和 供应 商 提供 信息 时 ， 甚 至 能 产生 更 大 的 效益 。 获 取 
决策 制定 所 需 的 信息 能 积极 促进 大 多 数 客户 服务 、SCM、 物 流 及 其 他 服务 。 电 子 商 务 已 成 为 动态 
数据 仓库 需求 (Armstrong 2000) 的 主要 人 催化剂。 例如， 网 上 零售 商 Overstock. com 公司 ( over- 
stock. com) 将 数据 用 户 连接 到 实时 数据 仓库 。 在 Egg plec， 世 界 最 大 的 网 上 银行 ， 客 户 数据 仓库 
(Customer Data Warehouse, CDW) 进行 近 实 时 更 新 〈 详 见 应 用 案例 2.7) 。 

因为 业务 需要 发 展 ， 所 以 数据 仓库 的 需求 也 在 发 展 。 基 层 的 数据 仓库 在 基本 层面 简单 地 报 
告发 生 的 事件 。 在 下 一 层面 ， 数 据 仓 库 进行 一 些 分 析 。 随 着 系统 的 发 展 ， 它 能 提供 预测 功能 ， 这 
将 导数 下 一 层面 的 运作 。 发 展 到 最 高 层面 ，ADW 能 够 让 事件 主动 发 生 ( 例 如 ,创建 销售 和 营销 
活动 、 识 别 和 利用 机 会 ) 。 请 看 图 2-10 对 该 演变 过 程 的 图 形 描 述 。Wrembel (2009) 文献 介绍 了 


一 项 对 管理 数据 仓库 演变 的 最 新 研究 。 
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数据 完善 度 
图 2-10 企业 决策 演变 


来 源 : Courtesy of Teradata Corporation 
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Teradata 公司 提供 了 支持 EDW 的 基本 要 求 。 它 也 使 动态 数据 仓库 具有 提交 数据 更 新 、 性 能 、 
有 效 性 和 支持 企业 决策 管理 的 新 特征 〈 见 图 2-11 中 的 例子 ) 。 








动态 访问 动态 工作 量 管理 
由 NRT 支 持 的 一 线 为 优化 性 能 和 资源 利用 使 
业务 决策 或 服务 ; 用 支持 混合 负荷 环境 ， 动 
5 秒 或 更 短 的 服务 态 动 态 管理 系统 资源 支持 
级 别 协议 ' 

— 动态 企业 集成 

即日 数据 采集 以 分 钟 或 秒 

为 时 间 单位 ， 小 批量 到 近 为 支持 智能 决策 ， 

实时 的 少量 数据 输入 集成 到 企业 结构 中 
动态 事件 
积极 主动 监测 业务 活 动态 可 用 性 

的 智能 活动 ; 使 用 许多 cmt 

p 一 (高 达 7 x 24) 

ih nn ce 客户 供应 商 Cee, T 


* 
i 

















2-11 Teradata 动态 EDW 
来 源 : Courtesy of Teradata Corporation 


ADW 提供 了 综合 信息 库 来 建设 企业 战略 和 战术 决策 支持 。 运 用 实时 数据 仓库 ， 一 旦 业务 发 
生 ， 数 据 就 从 OLTP 系统 中 集合 并 立即 被 移 人 数据 仓库 中 ， 而 不 是 以 夜间 模式 从 OLTP 系统 中 提 
取 操 作 数 据 到 ODS 中 。 这 将 支持 数据 仓库 的 实施 更 新 同时 取消 了 ODS。 基 于 这 个 特点 ， 运 用 实 
时 和 历史 数据 进行 战术 和 战略 查询 成 为 可 能 。 

根据 Basu (2003)， 传 统 数据 仓库 和 实时 数据 仓库 之 间 最 显著 的 区 别 是 数据 获取 模式 的 转 
变 。 下 面 是 一 些 具有 实时 数据 需求 的 业务 案例 和 企业 需求 : 

e 一 个 企业 不 能 用 一 整 天 的 时 间 等 待 它 的 业务 数据 加 载 到 数据 仓库 以 供 分 析 。 

。 目前 ， 数 据 仓库 可 以 获取 组 织 固定 状况 的 快照 ， 取 代 了 说 明 每 次 更 新 和 类 侯 模式 的 增 量 

实时 数据 。 
。 在 传统 的 星 形 拓扑 架构 中 ， 很 难保 持 元 数据 的 同步 性 。 开 发 、 维 护 和 确保 许多 系统 安全 
性 的 成 本 很 高 ， 相 反 开 发 、 维 护 和 确保 一 个 大 型 数据 仓库 安全 性 的 成 本 却 较 低 ， 因 为 数 
据 被 BVBA 工具 集中 了 。 

。 在 大 量 夜间 批 处 理 的 情况 下 ， 系 统 需要 ETL， 对 大 型 夜间 数据 仓库 的 处 理 能 力 要 求 很 高 ， 
处 理 过 程 也 许 会 占用 很 长 时 间 。 一 个 实时 采集 数据 的 EAI 可 以 减少 或 取消 夜间 批 处 理 。 

RE RDW 具有 优势 ,但 是 开发 RDW 会 产生 一 系列 问题 。 这 些 问 题 与 架构 、 数 据 模型 、 物 
理 数据 库 设计 、 存 储 和 可 扩展 性 、 可 维护 性 相关 。 另 外 ,访问 数据 的 精确 时 间 其 至 减少 到 微 秒 ， 
系统 也 可 能 会 提取 和 产生 不 同 版 本 的 事实 信息 ， 这 将 使 团队 成 员 感到 迷惑 。 详 情 请 查阅 Basu 
(2003) 和 Terr (2004) 的 文献 。 

实时 解决 方案 给 BI 提出 了 一 系列 挑战 。 尽 管 实时 数据 仓库 项 目 并 不 适用 于 所 有 解决 方案 ， 
但 是 如 果 企业 运用 合理 方法 来 处 理 项 目 风 险 ,采用 合理 计划 方案 并 专注 于 质量 安全 工作 ， 那 么 
实时 数据 仓库 项 目 有 可 能 成 功 。 在 实施 带 有 BI/BA 方法 的 复杂 数据 仓库 时 ， 了 人 解 常 见 因 难 和 采 
用 最 佳 实践 能 降低 项 目 问 题 的 严重 程度 。Burdett and Singh (2004) 和 Wilk (2003) 文献 讨论 了 
详细 情况 并 介绍 了 真实 的 实施 案例 ， 也 可 以 查阅 Akbay (2006) 和 Ericson (2006) 文献 。 
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请 看 技术 前 沿 2. 3 中 对 实时 概念 演变 的 详细 介绍 。 大 陆 航空 公司 的 航线 管理 仪表 盘 应 用 应 用 
案例 (请 看 本 章 末 应 用 案例 ) 展示 了 实时 B 在 面对面 客户 交互 情况 下 访问 数据 仓库 的 能 力 。 操 
作 人 员 运 用 实时 数据 仓库 来 识别 大 陆 航 线 网 络 中 的 问题 。 另 一 个 例子 ，UPS 投资 了 6 亿美 元 来 运 
用 实时 数据 和 程序 。( Malykhina，2003 ) 文献 指出 ， 通 过 管理 实时 包 流 技术 ， 预 计 该 投资 每 年 将 
减少 1 亿 英里 运输 成 本 并 节约 1 400 万 加 仑 燃油 。 表 2-6 对 传统 数据 仓库 和 实时 数据 仓库 环境 进 
行 了 比较 。 


表 2-6 传统 数据 仓库 环境 和 动态 数据 仓库 环境 的 对 比 










动态 数据 仓库 环境 





传统 数据 仓库 环境 








战略 和 战术 决策 

用 操作 度量 结果 

仅 存 储 几 分 钟 之 内 的 全 面 详细 数据 

KE (1000 REL) 用 户 同时 访问 和 查询 该 系统 

使 用 灵活 特定 的 报表 和 计算 机 辅助 建 模 〈 例 如 数据 控 


只 有 战略 决策 
结果 有 时 难以 度量 
可 存储 每 日 、 每 周 、 每 月 数据 ; 通常 数据 汇总 是 适当 的 
中 等 程度 的 用 户 并 发 


使 用 高 度 限 制 性 的 报告 或 检查 来 确认 现 有 的 流程 和 模 
式 ; 经 常 使 用 已 形成 的 汇总 表 和 数据 集 市 H) 发 现 新 假设 和 关系 
高 级 用 户 、 知 识 工 作者 、 内 部 用 户 业务 人 员 、 呼 叫 中 心 、 外 部 用 户 
来 源 : Based on P. Coffee, “‘ Active’ Warehousing,” e Week, Vol. 20,No.25,June 23 ,2003 ,p.36;and Teradata Corp. ,“ Active Data 
Warehousing,” teradata. com/t/page/87127/index. teml( accessed April 2006). 
































应 用 案例 2. 7 Egg PLc 点 燃 了 近 实 时 领域 的 竞争 


Egg Ple (egg. com) 是 世界 上 最 大 的 网 上 银行 。 它 通过 因特网 网 站 向 超过 360 万 的 客户 提 
供 金融 、 人 保险、 投资 、 抵 押 贷 款 业 务 。1998 年 ，Egg 选择 了 Sun Microsystems 创建 了 一 个 可 靠 、 
可 扩展 、 安 全 的 基础 设施 平台 来 处 理 超 过 250 万 的 日 常 交 易 。2001 年 ， 为 消除 延迟 问题 ， 该 系 
统 升 级 了 。 这 个 新 的 CDW 使 用 Sun, Oracle 和 SAS 软件 产品 。 源 数据 仓库 拥有 大 约 10TB 的 数 
据 ， 使 用 16-CPU 服务 器 。 该 系统 支持 近 实 时 数据 访问 。 它 向 内 部 用 户 提供 数据 仓库 和 数据 挖 握 
服务 ， 并 且 向 客户 提供 所 需 的 客户 数据 集 。 运 用 实时 数据 构造 数 以 百 计 的 销售 和 营销 活动 (在 
几 分 钟 内 )。 更 大 的 好 处 是 此 系统 能 更 快 制定 出 关于 特殊 客户 和 客户 群 的 决策 。 

来 源 : Compiled from “ Egg’ s Customer Data Warehouse Hits the Mark,” DM Review, Vol. 15, No. 10, October 2005, 
pp. 24-28 ; Sun Microsystems , “ Egg Banks on Sun to Hit the Mark with Customers, ” September 19 ,2005 , sun. com/ 
smi/Press/sunflash/2005-09/sunflash. 20050919. xml ( accessed April 2006) ; and ZD Net UK, “Sun Case 
Study: Egg’ s Customer Data Warehouse,” wtitepapers. zdnet. co. uk/0, 39025945 , 60159401 p- 39000449q, 
00. htm( accessed June 2009 ). 














2003 年 数据 仓库 在 实践 中 的 作用 迅速 增长 。 实 时 系统 虽然 新 奇 ， 但 最 近 的 负面 传言 是 其 向 需求 
者 即时 提供 混乱 的 数据 和 信息 。 许 多 专家 ， 包 括 《eWeek》 的 技术 主编 Peter Coffee， 都 认为 实时 系统 
必须 提供 实时 决策 制定 过 程 。NCR 公司 数据 仓储 事业 部 的 CTO Stephen Brobst， 认 为 实时 数据 仓库 应 
用 是 企业 运用 数据 的 演进 过 程 。 动 态 性 意味 着 数据 仓库 也 可 以 被 用 作业 务 和 战术 工具 。Brobst 提出 了 
5 阶段 模型 ， 与 Coffee 提出 的 企业 在 数据 应 用 领域 是 如 何 增长 的 (Brobstet et al. ，2005) 相 一 致 。 这 
些 阶段 (他 们 打算 回答 的 问题 ) 分 为 : 报告 (什么 发 生 了 )、 分 析 (为 什么 会 发 生 ) 、 预 测 (什么 将 
RE), BE (什么 正在 发 生 ) ， 和 动态 数据 仓库 (我 希望 发 生 什 么 ) 。 最 后 一 个 阶段 ,动态 数据 仓库 
是 企业 能 获取 最 大 利益 的 地 方 。 许 多 组 织 正在 增强 中 央 数 据 仓库 的 功能 来 服务 于 运作 和 战略 决策 
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支持 。 


来 源 : Based on P. Coffee, “ ‘Active’ Warehousing,” eWeek, Vol.20, No.25, June 23, 2003, p.36; and Teradata 
Corp. “Active Data Warehousing,” teradata. com/t/page/87127/index. html (accessed April 2006) . 

实时 数据 仓库 ， 近 实时 数据 仓库 、 零 延迟 数据 仓库 和 动态 数据 仓库 是 实践 中 用 来 描述 同一 
概念 的 不 同名 称 。Gonzales (2005) 文献 描述 了 对 ADW 的 不 同 定义 。 根 据 Gonzales 的 定义 ， 
ADW 是 可 以 提供 所 需 混合 战术 和 战略 数据 的 唯一 选择 。ADW 的 构建 架构 与 Bil Inmon 开发 的 企 
业 信 息 工厂 架构 非常 相似 。 两 者 之 间 的 唯一 区 别 是 在 单一 环境 中 实施 了 数据 存储 。 然 而 ， 一 个 基 
于 XML 的 SOA 和 Web 服务 为 所 需 混合 战术 和 战略 数据 提供 了 男 一 个 选择 。 

实时 数据 仓库 的 一 个 关键 问题 是 不 能 持续 更 新 所 有 数据 。 这 在 实时 生成 报表 时 肯定 会 产生 
问题 ， 因 为 一 个 人 的 结果 与 另 一 个 人 的 不 符 。 例 如 ， 公 司 运用 网 络 智 能 业务 对 象 发 现 了 实时 智能 
的 一 个 重要 问题 。 (Peterson ，2003) 文献 指出 ， 不 同时 间 内 生成 的 实时 报表 内 容 各 不 相同 。 而 
EH, 也 许 没 有 必要 持续 更 新 某 种 数据 (例如 ，3 年 或 者 3 年 以 前 的 课程 成 绩 ) 。 

实时 需求 改变 了 我 们 对 数据 库 的 设计 、 数 据 仓库 、OLAP 和 数据 挖掘 工具 的 传统 观点 。 因 为 
动态 查询 时 ， 它 们 需要 同时 逐 字 更 新 。 但 是 动态 查询 的 重大 商业 价值 已 得 到 证 实 ， 所 以 企业 在 业 
务 流 程 中 采用 动态 查询 是 至 关 重 要 的 。 认 真 规 划 是 实施 的 关键 。 


2. 7 节 复 习题 


1. 什么 是 RDW? 

2. 列举 RDW 的 好 处 。 

3. 传统 数据 仓库 和 实时 数据 仓库 间 的 重要 区 别 是 什么 ? 
4. 列举 RDW 的 驱动 力 。 


2.8 数据 仓库 管理 系统 、 安全 问题 和 未 来 发 展 趋势 

企业 可 以 有 效 创建 和 使 用 数据 仓库 ， 从 而 使 其 具有 明显 的 竞争 优势 。 由 于 规模 巨大 和 内 在 
的 特性 ， 数 据 仓 库 需 要 特别 强大 的 监测 管理 来 保持 其 令 人 满意 的 效率 和 生产 力 。 成 功 的 数据 仓 
库 管理 员 需 要 拥有 比 传统 数据 库 管理 员 ( Database Administrator, DBA) 更 多 的 技巧 和 经 验 。 数 
据 仓库 管理 员 (Data Warehouse Administrator, DWA) 应 该 熟悉 高 性 能 软件 、 硬 件 和 网 络 技 术 ， 
还 需要 具备 坚实 的 业务 洞察 力 。 由 于 数据 仓库 提供 了 BI 系统 和 DSS 来 帮助 管理 者 进行 决策 制定 
活动 ， 所 以 为 了 合理 设计 和 维护 数据 仓库 结构 ，DWA 应 该 熟悉 决策 制定 过 程 。 对 于 DWA 来 说 ， 
在 使 数据 仓库 具备 应 对 快速 改进 的 灵活 性 的 同时 ， 将 现行 需求 和 数据 仓库 的 能 力 维持 在 一 个 稳 
定 水 平 是 特别 重要 的 。 最 后 ，DWA 必须 具备 卓越 的 沟通 能 力 。 请 查看 Benander et al. (2000) 文 
献 中 对 DBA 和 DWA 关键 区 别 的 描述 。 

信息 的 安全 性 和 保密 性 是 数据 仓库 领域 主要 和 密切 关注 的 问题 。 美 国政 府 已 经 通过 了 法 规 
(例如 ，Gramm- Leach Bliley 隐私 和 保护 措施 ，199%6 年 的 健康 保险 可 移植 性 和 问 责 性 法 案 
[HIPAA] ) ， 对 客户 信息 管理 实行 强制 性 要 求 。 因 此 ， 为 遵守 众多 隐私 条 例 ， 企 业 必 须 创 建 有 效 
但 灵活 的 安全 程序 。 根 据 Elson and LeClerc (2005) ， 数 据 仓 库 安 全 性 应 关注 4 个 主要 领域 : 

1. 建立 有 效 企 业 和 安全 性 政策 和 程序 。 有 效 安全 政策 应 从 顶层 开始 ， 伴 随 执 行 管理 ， 并 应 

传达 到 组 织 内 的 每 个 人 。 . 

2. 通过 实施 逻辑 安全 性 程序 和 技术 来 限制 访问 。 这 包括 认证 、 访 问 控制 和 加 密 技术 。 

3. 限制 对 数据 中 心 环境 的 物理 访问 。 

4. 建立 安全 性 和 保密 性 的 有 效 内 部 控制 审核 程序 。 

请 查阅 技术 前 沿 2.4 中 对 Ambeo 重要 软件 工具 的 介绍 ， 该 工具 可 监测 数据 仓库 安全 和 隐私 。 
最 后 ， 记 住 应 谨慎 地 通过 移动 设备 访问 数据 仓库 。 在 这 种 情况 下 ， 数 据 仅 能 被 只 读 访问 。 

短期 内 ， 数 据 仓库 开发 决定 于 最 显著 因素 〈( 例 如， 数据 存储 量 、 对 延迟 的 容忍 、 数 据 类 型 
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的 多 样 性 和 复杂 性 ) 和 次 显著 因素 (例如 ， 未 满足 终端 用 户 对 仪表 盘 的 需求 、 平 衡 记分 卡 、 元 
数据 管理 、 信 息 质量 ) 。 基 于 这 些 因素 ，Moseley (2009) 和 Agosta (2006) 文献 认为 数据 仓库 的 
发 展 趋势 将 倾向 于 简单 性 、 实 用 性 和 性 能 。 


技术 前 沿 2.4 Ambeo 提供 成 熟 的 数据 访问 审计 解决 方案 
从 1997 年 开始 ，Ambeo (ambeo. com; 现在 的 Embarcadero 技术 有 限 公 司 ) 已 部 署 了 可 以 提供 以 下 服 
务 的 技术 : 性 能 管理 、 数 据 使 用 情况 跟踪 、 数 据 隐私 审查 和 对 财富 1 000 强 公 司 的 监测 。 这 些 公司 具备 一 
些 大 型 数据 库 环境 。Ambeo 数据 访问 审计 解决 方案 在 企业 信息 安全 基础 设施 中 起 着 主要 作用 。 
Ambeo 技术 是 相对 简单 的 解决 方案 ， 它 记录 了 数据 库 的 一 切 交 易 ， 并 且 成 本 较 低 或 无 需 成 本 。 此 外 ， 
它 提供 数据 访问 审计 来 准确 识别 谁 在 查看 数据 ， 他 们 什么 时 候 查看 的 ， 他 们 用 数据 做 了 什么 。 这 种 实时 监 
测 有 助 于 快速 和 有 效 识 别 地 安全 漏洞 。 
来 源 : Based on“Ambeo Delivers Proven Data Access Auditing Solution,” Database Trends and Applications , Vol. 19 ,No. 7 ,July 
2005 ; and Ambeo, “Keeping Data Private( and Knowing It) : Moving Beyond Conventional Safeguards to Ensure Data Pri- 
vacy ,” am-beo. com/why_ambeo_white_papers. html (accessed May 2009) . 


数据 仓库 的 未 来 发 展 趋势 

数据 仓库 领域 正在 /已 经 成 为 近 几 十 年 来 信息 技术 中 的 活 牙 领域 ， 同 时 BI 也 证 实 了 该 领域 的 重 
要 性 将 会 日 渐 增 加 。 下 面 是 近来 流行 的 、 将 在 定义 未 来 数据 仓库 中 起 着 重要 作用 的 概念 和 技术 。 

。 来 源 (从 不 同和 分 散 的 来 源 获 取 数 据 ) 

开源 软件 ”在 数据 仓库 、 商 业 智 能 和 数据 集成 领域 中 ， 开 源 软 件 工 具 的 运用 正 以 空前 的 

水 平 增长 。 数 据 仓 库 领 域 开源 软 件 的 增长 基于 很 好 的 理由 (Russom, 2009): (1) 经 济 

衰退 带动 了 人 们 对 低 成 本 开源 软件 的 兴趣 ; (2) 开源 工具 正在 进入 新 的 成 熟 阶段 ; (3) 

开源 软件 发 展 了 传统 企业 软件 而 不 是 代替 它们 。 

软件 即 服 务 (Software as a Service, Saas), “扩展 的 ASP 模型 ” SaaS 是 部 署 信 息 

系统 应 用 的 一 种 创造 性 方法 ， 应 用 提供 商 向 用 户 提 供 面 向 需求 的 服务 许可 应 用 程序 ( 通 

常 在 因特网 上 )。SaaS 软件 供应 商 使 用 自己 的 服务 托管 应 用 程序 或 者 上 传 应 用 程序 至 客 

Pit. AEE, SaaS 是 ASP 模型 的 全 新 和 改进 版 本 。 数 据 仓 库 用 户 很 难 发 现 能 满足 特殊 

需求 的 基于 SaaS 应 用 程序 和 资源 。 随 着 这 些 软件 的 提供 变 得 越 来 越 便捷 ， 作 为 数据 仓库 

的 应 用 平台 ，SaaS 的 吸引 力 和 实际 使 用 也 会 增加 。 

e RHA 云 计算 也 许 是 近年 来 最 新 和 最 具 创 新 性 的 平台 ， 其 中 汇聚 和 虚拟 化 了 大 量 硬 件 
和 软件 资源 ， 因 此 当 需 要 时 ， 它 们 可 以 被 自由 分 配给 应 用 和 软件 平台 。 随 着 工作 量 的 增 
加 ， 信 息 系 统 应 用 程序 也 按 比 例 增加 。 虽 然 云 计算 和 类 似 的 虚拟 技术 程序 是 为 业务 应 用 
程序 而 建立 的 ， 但 数据 仓库 应 用 平台 也 开始 运用 这 些 技术 。 当 数据 仓库 中 的 数据 量变 化 
不 可 预测 ， 决 策 规划 能 力 变 得 困难 时 ， 云 计算 中 的 动态 分 配 可 发 挥 重 大 作用 。 

。 数据 仓库 应 用 程序 ”近年 来 ， 数 据 仓库 领域 中 讨论 最 广泛 的 问题 之 一 就 是 数据 仓库 应 用 

程序 。 该 问题 的 初始 定义 与 一 个 整体 性 解决 方案 有 关 ， 该 解决 方案 仅 给 数据 仓库 提供 全 

面 的 技术 堆栈 〈 软 件 、 硬 件 等 ) 。 从 那 时 起 ， 它 的 定义 就 被 修改 了 ， 它 开始 提供 局 部 技 

术 匹 配 服务 以 满足 用 户 的 特殊 需求 。 未 来 发 展 趋势 是 基于 最 佳 组 合 哲理 。 

基础 设施 (系统 架构 -软件 和 硬件 -系统 升级 ) 

实时 数据 仓库 RDW 意味 着 现行 数据 仓库 的 数据 更 新 周期 更 加 频繁 (几乎 同步 于 操作 型 数 

据 库 中 的 数据 更 新 ) 。 实 时 数据 仓库 系统 能 达到 近 实 时 数据 更 新 ， 其 数据 延迟 通常 从 几 分 钟 

到 几 小 时 不 等 。 随 着 延迟 的 减少 ， 数 据 更 新 的 成 本 看 似 是 成 倍增 长 。 未 来 的 许多 技术 进步 

(从 自动 数据 获取 到 智能 软件 代理 ) 使 得 实时 数据 仓库 的 价格 可 以 负担 得 起 。 

。 数据 管理 技术 和 实践 ”下 一 代数 据 仓 库 平 台 最 迫切 的 需求 包括 技术 和 实践 ， 一 般 我 们 并 
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不 认为 这 是 平台 的 一 部 分 。 特 别 地 ， 许 多 用 户 需 要 更 新 数据 管理 工具 ， 这 些 工 具 可 以 通 
过 数据 仓库 处 理 数 据 。 未 来 主 数据 管理 技术 将 迅速 发 展 。 这 一 全 新 且 极 其 重要 的 概念 正 
在 日 渐 流行 ， 原 因 如 下 : (1) 与 业务 系统 更 紧密 的 集成 需要 MDM; (2) 大 多 数据 仓库 
仍 缺 少 MDM 和 数据 质量 功能 ; (3) 常规 和 财务 报表 必须 完全 清晰 和 准确 。 
e 在 内 存 中 处 理 (64 位 计算 能 力 ) 或 “超级 计算 能 力 ” 64 位 系统 通常 可 以 提供 比 旧 系 
统 更 快 的 CPU 和 更 省 电 的 硬件 设施 。 但 是 ， 对 于 数据 仓库 来 说 ，64 位 系统 最 显著 的 好 处 
是 它 具 有 可 和 寻 址 存储 器 的 超大 空间 ， 可 以 部 署 内 存 数据 库 以 支持 报表 或 分 析 应 用 程序 的 
运行 ， 它 们 需要 快速 查询 的 反应 速度 。 内 存 数据 库 可 提供 这 样 的 速度 ， 因 为 它们 没有 磁 
盘 输 入 /输出 。 内 存 数据 库 通 常 是 DBMS 的 功能 ,但 有 些 BI 平台 也 提供 内 存 数据 存储 和 
相关 处 理 服务 。 
ETL 工具 通常 支持 64 位 环境 的 内 存 处 理 ， 因 此 可 以 在 大 存储 空间 下 执行 复杂 连接 和 转换 ， 
不 需要 将 数据 下 载 到 磁盘 的 临时 表 中 。 这 使 得 ETL 数据 流入 正确 的 管道 ， 这 意味 着 ETL 工具 可 
以 升级 ， 在 较 短 时 间 内 处 理 大 量 数据 。 
。 新 DBMS 数据 仓库 平台 由 多 种 基本 组 件 组 成 ， 其 中 最 关键 部 分 是 数据 库 管 理 系统 
(Database Management System ，DBMS ) 。 这 是 理所当然 的 ; 事实 上 ，DBMS 是 数据 仓库 平 
台中 的 组 件 ， 该 平台 需要 执行 大 量 工作 来 建立 数据 模型 和 优化 查询 性 能 。 因 此 ， 人 们 必 
然 期 望 对 新 一 代 的 DBMS 进行 创新 。 
高 级 分 析 当 用 户 舍 弃 基 于 OLAP 的 基本 方法 并 开始 高 级 分 析 时 ， 数 据 仓库 将 给 用 户 提供 不 
同 的 分 析 方法 。 有 些 用 户 选 择 基 于 数据 挖掘 、 预 测 分 析 、 统 计 、 人 工 智能 等 的 高 级 分 析 方 法 。 同 
时 ， 大 多 数 用 户 将 选择 基于 SQL 的 方法 。 是 否 基 于 SQL， 高 级 分 析 方 法 看 来 都 将 会 是 下 一 代数 据 
仓库 的 发 展 趋势 。 
数据 仓库 的 未 来 开始 来 充满 希望 和 挑战 。 当 世界 商业 开始 全 球 化 和 复杂 化 时 ， 对 商业 智能 
和 数据 仓库 工具 的 需求 也 日 渐 突出 。 快 速 发 展 的 信息 技术 工具 和 技术 正 朝 着 可 以 满足 商业 智能 
系统 的 未 来 需求 的 正确 方向 发 展 。 


2. 8 节 复 习题 


1. 为 确保 数据 仓库 中 客户 数据 的 安全 性 和 保密 性 ， 企 业 可 以 采取 什么 措施 ? 
2. DWA 应 具备 什么 性 能 ? 为 什么 ? 
3. 可 以 创建 未 来 数据 仓库 的 最 新 技术 是 什么 ? 为 什么 ? 


2.9 相关 资源 、 链接 和 Teradata 大 学 网 络 的 连接 
使 用 下 列 资源 ， 加 深 对 本 章 和 其 他 各 章 的 理解 。 
2. 9. 1 资源 和 链接 


我 们 推荐 你 进一步 阅读 和 查看 下 列 资源 和 链接 : 
e 数据 仓库 协会 (tdwi. com) 

e 《DM Review) (dereview. com) 

e DSS 资源 (dssresources. com) 


2.9.2 案例 


所 有 的 大 型 MSS 供应 商 (例如 MicroStrategy, Microsoft, Oracle, IBM, Hyperion, Cognos , 
Exsys, Fair Isaac, SAP 和 Information Builders) 均 提 供 有 趣 的 客户 成 功 案例 。 学 术 导 向 案例 可 以 
在 以 下 网 站 找到 : 哈佛 商学 院 案 例 集 (harvardbusinessonline. hbsp. harvard. edu) ， 商 业绩 效 提 
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高 资源 中 心 (bpir com)， 思 想 集团 出 版 社 〈idea- group. com), 常春 蕨 联合 出 版 社 
(ivylp. com) ， 管 理 研究 ICFAI -ò ( icmr. icfai. org/casestudies/icmr_case_studies. htm), ， 知 
识 风暴 (knowledgestorm. com) 和 其 他 网 站 。 寻 找 更 多 的 案例 资源 ， 请 查看 Teradata 校园 网 
(teradatauniversitynetwork. com) :“ 大 陆 航空 公司 应 用 实时 商业 智能 腾飞 ”,， “北部 卡 罗 莱 纳 州 
蓝 十 字 和 蓝 盾 的 数据 仓库 治理 ”,“ 运 用 全 球 数 据 仓 库 ，3M 转向 以 客户 为 中 心 ”,， “数据 仓库 支持 
公司 战略 ”,“Harrah 从 客户 信息 中 获得 高 回报 ”和 “旋涡 ”。 同 时 也 推荐 数据 仓库 失败 案例 集 ， 
由 8 个 简短 的 数据 仓库 失败 案例 组 成 。 


2.9.3 供应 商 、 产品 和 演示 


《DM Review) (dereview. com) 上 刊登 了 供应 商 、 产 品 和 样品 程序 的 完整 列表 。 表 2-2 列 出 
了 供应 商 信 息 。 也 可 登录 techonologyevaluation. com 查看 相关 信息 。 


2.9.4 期 刊 
本 文 推荐 下 列 期 刊 : 


e Baseline (baselinemag. com) 

Business Intelligence Jounal (商业 智能 杂志 ) (tdwi. org) 

CIO (cio. com) 

CIO insight (cioinsight. com) 

Computerworld (计算 机 世界 ) (computerworld. com) 

Decision Support Systems (决策 支持 系统 ) (elsevier. com) 

DM Review (dereview. com) 

eWeek (eWeek. com) 

InfoWeek (infoweek. com) 

InfoWorld (infoworld. com) 

InernetWeek (internetweek. com) 

Management Information Systems Quarterly (管理 信息 系统 季刊 ) (MIS Quarterly, misq. org) 
Technology Evaluation (技术 评估 ) (technologyevalution. com) 
Teradata Magazine (teradata. com) 


2.9.5 其 他 参考 文献 


关于 数据 仓库 更 多 信息 ， 请 查看 下 列 内 容 : 

e C. Imhoff, N. Galemmo, and J. G. Geiger. (2003) . Mastering Data Warehouse Design: Rela- 
tional and Dimensional Techniques. New York; Wiley. 

e D. Marco and M. Jennings. (2004) . Universal Meta Data Models. New York: Wiley. 

e J. Wang. (2005) . Encyclopedia of Data Warehousing and Mining. Hershey, PA: Idea Group 
Publishing. 

更 多 关于 数据 库 和 数据 仓库 开发 架构 的 信息 ， 请 查看 下 列 内 容 : 

e R.T. Watson. (2006) . Data Management, Sth ed. , New York: Wiley. 


2.9.6 Teradata 大 学 网 络 的 连接 


TUN (teradatauniversitynetwork. com) 提供 了 大 量 数据 仓库 信息 和 案例 。 最 佳 案例 之 一 是 
大 陆 航空 公司 案例 。 本 章 中 前 面部 分 提 到 了 其 他 的 推荐 案例 。 在 TUN 中 ， 如 果 你 点 击 了 “课程 ” 
(Courses) 标签 并 选择 “数据 仓库 ” (Data Warehousing) ， 你 将 看 到 许多 相关 文章 、 人 作业、 著作 
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专 章 、 课 程 网 站 、PPT、 项 目 、 研 究 报 告 、 教 学 大 纲 和 网 络 课程 的 链接 。 你 也 将 看 到 动态 数据 仓 


库 软 件 产品 展示 的 链接 。 
最 后 ， 你 将 看 到 Teradata 的 链接 (teradata. com) ， 在 这 里 你 会 发 现 其 他 信息 ， 包 括 优秀 的 


数据 仓库 成 功 案例 、 白 皮 书 、 网 络 课程 和 Teradata 杂志 的 网 络 版 本 。 
本 章 重点 


数据 仓库 是 为 组 织 数据 而 专门 构建 的 数据 存储 库 ， 终 端 用 户 可 以 很 容易 地 使 用 应 用 程序 访问 数据 。 
数据 集 市 中 的 数据 主题 唯一 (例如 营销 ) 。 数 据 集 市 是 数据 仓库 中 数据 子 集 的 复制 。 数 据 集 市 是 成 
本 相对 较 低 的 解决 方案 ， 可 以 被 数据 仓库 替代 或 者 作为 数据 仓库 的 补充 。 数 据 集 市 可 以 依赖 或 独立 
于 数据 仓库 。 

ODS 是 一 种 客户 信息 档案 数据 库 ， 该 数据 库 通常 被 用 做 数据 仓库 架构 的 中 间 层 。 

数据 集成 包含 3 个 主要 进程 : 数据 访问 、 数 据 联合 和 变化 捕获 。3 个 进程 正确 执行 后 ， 就 可 以 访问 
数据 ， 还 可 以 访问 ETL 数组 、 分 析 工 具 和 数据 仓库 环境 。 

ETL 技术 从 众多 来 源 中 提取 数据 ， 清 理 数据 并 加 载 数据 到 数据 仓库 中 。ETL 是 数据 中 心 项 目的 集成 过 程 。 
通过 实时 加 载 数据 和 向 用 户 提供 数据 ， 支 持 动态 决策 制定 ， 实 时 或 动态 数据 仓库 补充 并 扩展 了 传统 
数据 仓库 ， 进 入 了 制定 业务 和 战术 决策 领域 。 


。 数据 和 信息 的 安全 性 和 隐私 性 是 数据 仓库 领域 的 关键 问题 。 


关键 术语 

Active Data Warehousing (ADW, JAA GIE) 
Decision Support Systems (DSS， 决 策 支持 系统 ) 
Extraction, Transformation, and Load (ETL, 提取 、 
转换 和 加 载 ) 

parallel processing 并 行 处 理 

ad hoc query 特定 查询 

dependent data mart 非 独 立 的 数据 集 市 

grain 粒度 

prototyping 原型 法 

best practices 最 佳 实践 

dimensional modeling 维度 建 模 

Graphical User Interface (GUI， 图 形 用 户 界面 ) 
Real-time Data Warehousing (RDW， 实 时 数据 仓库 ) 
cloud computing 云 计 算 

dimension tables 维度 表 

independent data mart 独立 数据 集 市 

relational database 关系 型 数据 库 

cube 立方 体 

drill down 钻 取 

metadata 元 数据 

Relational Online Analytical Processing (ROLAP， 关 
系 型 在 线 分 析 处 理 ) 

data cube 数据 立方 体 

Enterprise Application Integration ( EAI, 企业 应 用 
集成 ) 

multidimensional analysis 多 维 分 析 


risk 风险 

data integration 数据 集成 

Enterprise Data Warehouse (EDW, 企业 数据 仓库 ) 
multidimensional database 多 维 数据 库 

scenario 场景 

data mart 数据 集 市 

enterprise decision management 企业 决策 管理 
multidimensional OLAP ( MOLAP， 多 维 在 线 分 析 
处 理 ) 

software agent 软件 代理 

data quality 数据 质量 

Enterprise Information Integration (EII， 企 业 信 息 
集成 ) 

oper marts 操作 集 市 

speech recognition 语音 识别 

Data Warehouse (DW, 数据 仓库 ) 

expert 专家 

Operational Data Store (ODS， 业 务 数据 存储 ) 

SQL 结构 化 查询 语言 

Data Warehouse Administrator ( DWA， 数 据 仓库 管 
理 员 ) 

extraction 提取 

snowflake schema 雪花 形 架 构 

Database Management System (DBMS， 数 据 库 管 理 
系统 ) 

star schema 星 形 架 构 
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讨论 题 


© ON NHN WN 一 


. 比较 数据 集成 和 ETL。 它 们 之 间 有 什么 样 的 关系 ? 

. 什么 是 数据 仓库 ? 它 的 好 处 是 什么 ? 为 什么 网 络 可 访问 性 对 数据 仓库 很 重要 ? 

. 数据 集 市 可 以 代替 数据 仓库 或 补充 它 。 比 较 并 讨论 这 两 种 选择 。 

. 讨论 数据 仓库 给 终端 用 户 带 来 的 好 处 。 

. 列举 数据 库 管理 员 和 数据 仓库 管理 员 之 间 的 区 别 和 相似 之 处 。 

. 阐述 数据 集成 是 如 何 提升 数据 质量 的 。 

.比较 Kimball 和 Inmon 数据 仓库 开发 方法 。 说 明 它们 分 别 在 何 时 使 用 最 有 效 。 

. 讨论 创建 数据 仓库 时 的 安全 问题 。 

. 研究 当前 离 岸 外 包 的 数据 仓库 的 开发 实施 。 撰 写 关 于 此 问题 的 报告 。 课 堂上 讨论 此 问题 的 利润 、 成 本 和 


社会 因素 。 


练习 
Teradata 大 学 和 其 他 动手 练习 


1. 


描述 日 本 可 口 可 乐 公司 数据 仓库 项 目的 开发 和 应 用 情况 (应 用 案例 2.4 中 的 总 结 ) 。 可 以 在 DSS 资源 网 
站 上 找到 此 案例 ，dssresources. com/cases/cocacolajapan/index. html. 阅读 此 案例 并 回答 进一步 分 析 
和 讨论 的 9 个 问题 。 


- 阅读 Ball (2005) 文献 并 对 其 中 介绍 的 标准 进行 排序 (最 好 对 一 个 真实 企业 而 言 )。 撰 写 报 告 曾 述 每 条 


标准 的 重要 性 并 说 明 原 因 。 


. 在 考虑 数据 仓库 项 目 开 发 时 ， 说 明 什么 时 候 需 要 实施 二 层 架 构 或 者 三 层 架构 。 


. 阅读 teradatastudentnetwork. com 网 站 的 大 陆 航空 公司 案例 (在 本 章 案例 应 用 的 最 后 部 分 做 了 总 结 ) 并 
回答 问题 。 
. 登录 teradatastudentnetwork. com PJ yA, Ba i Øl “ Harrah’ s High Payoff from Customer Information 


(Harrah 从 客户 信息 中 获取 的 高 回报 ) ”并 回答 问题 。 将 Harrah 的 结果 与 航空 公司 和 赌场 如 何 运 用 客户 
数据 联系 起 来 。 


. 登录 teradatastudentnetwork. com 网 站 ， 阅 读 “Data Warehousing Failures (数据 仓库 失败 案例 )” 并 回 


答 问题 。 因 为 其 中 介绍 了 8 个 案例 ， 所 以 课堂 应 被 分 成 8 组 ， 每 组 分 配 一 个 案例 。 另 外 ， 阅 读 资料 Ariy- 
achandra 和 Waston (2006a) ， 分 析 每 个 案例 的 失败 原因 ， 不 要 专注 于 资料 中 一 个 或 多 个 的 成 功 因 素 。 


. 登录 teradatastudentnetwork. com 网 站 ， 阅 读 “Ad-Vent Technology: Using the MicroStrategy Sales Analytic 


Model (Ad-vent 技术 : 使 用 Microstrategy 销售 分 析 模 型 )” 并 回答 相关 问题 。Microstrategy 软件 可 以 从 
TUN 网 站 下 载 。 同 时 ， 你 也 许 想 使 用 Barbara Wixom 关于 Microstrategy 软件 的 PPT (关于 Microstrategy 教 
程 的 演示 幻灯 片 )， 这 也 可 以 从 TUN 网 站 下 载 。 


. 登录 teradatastudentnetwork. com 网 站 ， 观 看 名 为 “Real-Time Data Warehousing; The Next Generation of 


Decision Support Data Management (实时 数据 仓库 : 下 一 代 决 策 支持 数据 管理 )” 和 “Building the Real- 
Time Enterprise (建立 实时 企业 )” 的 网 络 研讨 会 。 阅 读 文章 “Teradata’s Real-Time Enterprise Reference 
Architecture; A Blueprint for the Future of IT (Teradata 的 实时 企业 相关 架构 : IT 的 未 来 蓝图 )”， 这 也 可 以 
从 此 网 站 下 载 。 介 绍 实时 概念 和 技术 是 如 何 发 挥 作用 的 ， 企 业 如 何 运 用 它们 来 扩展 现行 数据 仓库 和 BI 
架构 以 支持 日 常 决 策 制定 的 。 撰 写 一 份 报告 ， 阐 述 实 时 数据 仓库 如 何 使 企业 具备 竞争 优势 。 详 细 阐 述 项 
目 实施 和 操作 中 的 困难 ， 并 说 明 在 实际 中 如 何 解决 它们 。 


. 登录 teradatastudentnetwork. com 网 站 ， 观 看 网 络 研 讨 小 组 “Dafa Integration Renaissance; New Drivers 


and Emerging Approaches (数据 集成 复兴 之 路 : 新 驱动 和 新 兴 方 法 )” 和 “In Search of Single Version of 
the Truth; Strategies for Consolidating Analytic Silos (寻找 唯一 的 事实 : 巩固 分 析 的 战略 ) ”和 “Data In- 
tegration; Using ETL, EAI 和 EIT Tools to Create an Integrated Enterprise (数据 集成 : 运用 ETL, EAI 和 
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EII 工具 来 创建 集成 企业 )”。 同 时 阅读 “Data Integration (数据 集成 ) ”研究 报告 。 比 较 这 些 报告 。j 
些 报告 中 介绍 的 最 重要 的 问题 是 什么 ? 将 数据 集 市 和 电子 表格 集成 为 一 个 数据 仓库 架构 具有 挑战 性 ， 
应 对 挑战 的 最 佳 方法 是 什么 ?网络 搜索 相关 领域 的 最 新 进展 。 将 上 述 报告 与 你 所 发 现 的 最 新 进展 进行 
比较 。 

10. 研究 数据 仓库 领域 的 未 来 发 展 趋势 。 对 此 主题 进行 网 络 搜索 。 同 时 ， 阅 读 2 篇 文章 : L Agosta, “Data 
Warehousing in a Flat World; Trends for 2006 (扁平 世界 中 的 数据 仓库 : 2006 年 的 发 展 趋势 )”，DM Di- 
rect Newsletter, 2006 年 3 月 31 A; J. G. Geiger, “CIFe: Evolving With the Times (CIFe: 随 着 时 间 的 不 
断 演进 )”，DM Review, 2005 年 11 H: 38 ~41。 比 较 你 在 这 2 篇 文章 中 的 发 现 。 

11. 登录 teradatastudentnetwork. com 网 站 。 阅 读 最 新 的 文章 ， 研 究 报告 和 数据 仓库 案例 。 介 绍 此 领域 中 
的 最 新 进展 。 撰 写 报告 说 明 数 据 仓 库 如 何在 BI 和 DSS 中 应 用 。 

小 组 作业 和 角色 扮演 

1. 在 过 去 的 6 年 里 ，Kathryn Avery 担任 了 全 国 性 连锁 零售 企业 (Big chain) 的 DBA。 最 近 ， 她 被 任命 主持 
Big chain 的 第 一 个 数据 仓库 项 目 。 该 项 目 得 到 了 高 级 管理 人 员 和 CIO 的 大 力 支持 。 开 发 数据 仓库 的 目标 
是 为 了 改善 报表 系统 ， 特 别 是 销售 和 营销 领域 的 报表 系统 。 从 长 远 来 看 ,项 目 目标 是 为 改善 Big chain 的 
CRM, Kathryn 曾 参 与 数据 仓库 协会 的 会 议 ， 并 阅读 过 相关 文章 。 但 是 ， 她 对 开发 方法 仍 有 迷惑 。 她 知 
道 有 2 大 集团 : EDW (Inmon) 和 已 架构 的 数据 集 市 (Kimball) 。 

最 初 ， 她 认为 两 种 方法 完全 不 同 ， 但 是 当 她 认真 研究 时 ， 开 始 抱 怀 疑 态 度 。Kathryrn 有 众多 问题 需要 
解答 : 

a. 两 种 方案 之 间 的 不 同 之 处 在 哪 ? 

b. 选择 一 个 特定 方案 的 重要 原因 是 什么 ? 

c. 她 下 一 步 该 采取 什么 措施 ? 

帮助 Kathryn 回答 以 上 问题 。 (此 练习 基于 此 文献 : K. Duncan, L. Reeves 和 J. Griffin, “BI Experts’ Per- 
speetive (BI 专家 观点 ) , Business Intelligence Journal (商务 智能 杂志 ) , 2003 Æ, 8 (4): 14 ~19。) 

2. Jeet Kumar 是 一 个 大 型 区 域 银行 的 数据 仓库 管理 员 。5 年 前 他 被 任命 去 实施 一 个 支持 银行 CRM 业务 战略 
的 数据 仓库 项 目 。 运 用 此 数据 仓库 ， 银 行 能 够 成 功 地 集成 客户 信息 、 分 析 客 户 利润 、 吸 引 客户 、 增 强 客 
户 关系 和 保留 客户 。 

几 年 之 后 ， 由 于 更 新 数据 的 频率 更 加 频繁 ,银行 数据 仓库 逐渐 发 展 为 实时 数据 仓库 。 现 在 ， 该 银行 想 实 
施 客户 自助 服务 和 呼叫 中 心 应 用 系统 ， 这 需要 更 快 地 更 新 数据 。 

Jeet 希望 让 数据 更 新 。 一 个 替代 选择 是 实施 实时 数据 仓库 项 目 。 他 的 ETL 供应 商 准 备 支持 这 个 项 目 。 然 
m, Jeet 已 了 解 了 EAI 和 EII 技术 ， 并 想 知道 如 何 将 这 些 技术 运用 到 项 目 中 。 

特别 的 ，Jeet 有 如 下 问题 : 

a. 到 底 什 么 是 EAI 和 EII 技术 ? 

b. EAI 和 EII 技术 与 ETL 技术 有 什么 关系 ? 

c. EAI 和 EN 技术 与 实时 数据 仓库 有 何 关系 ? 

d. EAI 和 EN 技术 是 实时 数据 仓库 所 需要 的 技术 还 是 补充 ， 或 者 是 对 实时 数据 仓库 的 替代 ? 

帮助 Jeet 回答 以 上 问题 。( 此 练习 基于 此 文献 : S. Brobst, E. Levy 和 C. Muzilla, “Enterprise Application In- 
tegration and Enterprise Information Integration (企业 应 用 和 集成 和 企业 信息 集成 )”，Business Intelligence Jour- 
nal (商务 智能 杂志 ) 2005, 10 (2): 27 ~32。) 

3. 采访 你 大 学 的 管理 员 或 者 企业 的 管理 人 员 ， 判 断 数据 仓库 是 如 何 协助 他 们 工作 的 。 扎 写 一 份 报告 描 述 你 
的 发 现 。 报 告 中 应 包括 成 本 估计 和 项 目 收 益 。 

4. 浏览 本 章 中 的 数据 仓库 风险 列表 ， 在 实际 项 目 中 找 出 其 中 两 个 风险 。 

5. 访问 teradata. com 网 站 ， 阅 读 白 皮 书 “Measuring Data Warehouse ROI (衡量 数据 仓库 ROI)” ”和 “Reali- 
zing ROI; Projecting and Harvesting the Business Value of an Enterprise Data Warehouse (实现 ROI: 发 现 并 收 
获 数 据 仓 库 的 商业 价值 ) ”。 同 时 ， 观 看 网 络 课 程 “The ROI Factor: How Leading Practitioners Deal With 
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the Tough Issne of Measuring DW ROI (影响 ROI 的 因素 : 怎样 引导 开发 人 员 处 理 衡量 DW 的 ROI 的 难 
题 )”。 描 述 其 中 最 重要 的 问题 ， 并 对 这 些 问 题 与 Ariyachandra 和 Waston (2006) 中 介绍 的 成 功 因素 进行 
比较 。 

6. 阅读 K. Liddell Avery 和 Hugh J. Watson 文章 的 “Training Data Warehouse End- users (培训 数据 仓库 的 终端 用 
户 )”，Business Intelligence Journal (商务 智能 杂志 ) , 2004, 9 (4): 40 ~51。 (该 文章 可 见于 teradatastu- 
dentnetwork. com 网 站 ) 。 将 不 同 的 小 组 看 成 不 同 的 终端 用 户 ， 说 明 他 们 遇 到 的 难题 ， 并 讨论 对 不 同 小 组 
进行 合理 培训 的 好 处 。 让 小 组 中 的 每 个 成 员 扮演 一 个 角色 ， 讨 论 什 么 类 型 的 数据 仓库 培训 适合 你 。 

网 络 练习 

1. 上 网 搜索 关于 数据 仓库 的 信息 。 识 别 出 对 此 概念 感 兴趣 的 新 闻 。 在 图 书馆 、 电 子 图 书馆 和 Googe 上 搜索 
关于 ABI/INFORM 的 最 新 文章 。 登 录 tdwi. com, technologyevaluation. com 和 主要 供应 商 : terada- 
ta. com, sas. com, oracle. com 和 ncr. com, tE pJi} Ej cio. com, dmreview. com, dssresources. com 
和 db2mag. com, 

2. 研究 ETL 工具 和 供应 商 。 登 录 fairisaac. com 和 egain. com。 也 可 访问 dmreview. com, 

3. 联系 一 些 数据 仓库 供应 商 ， 获 取 他 们 产品 的 信息 。 特 别 关注 提供 复杂 功能 产品 的 供应 商 ， 例 如 Cognos, 
Software A&G, SAS Institute 和 Oracle。 可 以 从 这 些 供 应 商 那么 获取 免费 的 在 线 演 示 程 序 。 下 载 一 个 或 
两 个 程序 并 运行 它们 。 撰 写 一 份 实验 报告 。 

4. 登录 teradata. com， 下 载 数据 仓库 项 目 开发 的 成 功 案例 。 写 一 份 报告 介绍 你 的 学 习 心 得 。 

5. 登录 teradata. com 下 载 数据 仓库 的 白皮书 和 网 络 课程 。 阅 读 白 皮 书 并 观看 网 络 课程 〈 将 班级 分 组 以 完 
成 所 有 任务 ) 。 写 一 份 报告 介绍 你 的 学 习 心 得 。 

6. 寻找 数据 仓库 项 目的 最 新 成 功 案例 。 登 录 数 据 仓库 供应 商 网 站 并 寻找 案例 或 者 成 功 的 故事 。 选 择 其 中 一 
个 并 向 班级 同学 做 简要 介绍 。 


本 章 结尾 应 用 案例 

大 陆 航空 公司 因 使 用 实时 数据 仓库 而 腾飞 

当 商 务 智能 成 为 日 常 业务 系 统 的 关键 组 件 时 ， 提 供用 户 快速 更 新 和 预警 的 实时 数据 仓库 项 目 也 在 日 渐 
增加 。 实 时 数据 仓库 和 BI 支持 制定 积极 进取 的 “前 行商 业 计 划 ”， 帮 助 改 变 了 大 陆 航 空 公司 的 经 营 状况 ， 
将 最 差 的 经 营 状况 转变 为 最 好 的 ， 将 最 好 转变 为 最 喜爱 的 。 大 陆 航空 公司 是 实时 BI 方面 的 领军 企业 。2004 
年 ， 它 赢得 了 数据 仓库 协会 颁发 的 最 佳 实践 和 领导 奖项 。 

问题 

大 陆 航 空 公司 成 立 于 1934 年 ， 在 美国 西南 部 拥有 一 架 单 引 擎 洛克 希 德 飞机 。2006 年 ， 大 陆 航 空 公 司 
成 为 全 美 第 5 大 航空 公司 和 世界 第 7 大 航空 公司 。 大 陆 航 空 公司 拥有 全 美 最 广泛 的 全 球 航 线 网 络 ， 拥 有 通 
往 超过 227 个 目的 地 的 超过 2 300 条 航线 。 

回 到 1994 年 ， 大 陆 航空 公司 陷入 了 重大 的 财务 危机 。 它 两 次 申请 美国 破产 法 第 11 章 的 保护 ， 并 准备 
申请 第 3 次 ， 最 终 很 可 能 破产 。 机 票 销量 下 跌 ， 因 为 客户 看 重 的 因素 表现 都 很 差 ， 包括 飞机 的 准时 起 飞 率 
很 低 、 行 李 托运 问题 频繁 、 许 多 客户 由 于 超重 而 离开 。 

解决 方案 

大 陆 航 空 公司 崛 起 于 1994 年 ， 当 时 Gordon Bethune 担任 公司 CEO 并 发 起 了 前 行 计 划 ， 该 计划 被 分 成 4 
个 部 分 立即 执行 。 通 过 更 好 地 理解 客户 需求 和 客户 对 公司 服务 的 意见 ，Bethune 致力 于 提升 客户 价值 绩效 考 
核 。 财 务 管理 活动 也 成 为 业务 重组 的 一 个 目标 。 早 在 1998 年 ， 航 空 公司 拥有 分 散 的 营销 和 业务 系统 ， 由 外 
部 供应 商 托管 和 管理 。 查 询 处 理 过 程 和 向 高 价值 客户 宣传 营销 计划 需要 花费 大 量 时 间 ， 且 无 效率 。 另 外 ， 
工作 人 员 制 定 决策 时 很 难 获取 相 关 信息 。1999 年 ， 大 陆 航空 公司 选择 了 将 营销 系统 、IT 系统 、 财 务 系统 和 
业务 数据 源 系统 集成 为 一 个 内 部 ED 又 。 数 据 仓库 在 此 过 程 中 起 了 主要 作用 。 

不 久 以 后 ， 大 陆 航空 公司 开始 处 于 一 利 状态 ， 而 且 各 项 业绩 指标 均 在 航空 领域 排名 第 1。Bethune 和 他 
的 管理 团队 提升 了 公司 目标 。 除 了 业绩 最 好 之 外 ， 他 们 期 望 大 陆 航空 公司 成 为 最 受 客户 欢迎 的 航空 公司 。 
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前 行 计划 采取 了 更 多 可 行 的 方法 ,使 得 大 陆 航 空 公司 从 排名 第 1 到 最 受 客户 欢迎 的 公司 。 技 术 成 为 支持 该 
新 行动 方案 的 关键 因素 。 早 期 ,访问 历史 的 、 集 成 数据 就 可 以 满足 公司 需求 。 这 产生 了 可 观 的 战略 价值 。 
但 是 ， 数 据 仓库 对 实时 的 、 可 提起 诉讼 信息 的 需求 日 渐 迫 切 ， 用 于 支持 企业 级 业务 决策 制定 和 商业 过 程 。 

幸运 的 是 ， 数 据 仓 库 开发 团队 已 经 预料 到 并 安排 了 实时 数据 仓库 项 目 。 在 开始 时 ， 团 队 就 创建 了 一 个 
架构 ， 用 来 处 理 实时 数据 进入 数据 仓库 的 过 程 ， 从 遗留 系统 中 提取 数据 到 数据 仓库 中 ， 进 行 实时 业务 查询 。 
2001 年 ， 可 以 从 数据 仓库 中 获取 实时 数据 ， 存 储 数量 也 快速 增长 。 大 陆 航 空 公司 将 主要 业务 系统 中 的 实时 
数据 (从 几 分 钟 到 几 小 时 ) 转移 到 数据 仓库 中 ， 这 些 数据 是 关于 客户 、 机 票 预订 、 登 机 、 运 作 和 航线 等 方 
面 的 。 大 陆 航空 公司 的 实时 数据 仓库 包括 下 列 内 容 : 

e 财务 管理 和 会 计 

。 客户 关系 管理 

e 机 组 人 员 运 作 和 工资 

。 系统 安全 与 漏洞 

e 飞行 作业 

结果 

就 第 一 年 而 言 ， 在 部 署 数 据 仓库 项 目 后 ， 大 陆 航空 公司 识别 并 消除 了 超过 700 万 美元 的 诈骗 ， 节 约 了 
4100 万 美元 的 成 本 。 伴 随 着 6 年 内 3 000 万 美元 的 软 硬 件 投资 ,大陆 航空 公司 在 财政 收入 增加 、 营 销 成 本 
节约 、 坎 诈 发 现 、 需 求 预测 和 追踪 和 改进 数据 中 心 管 理 方面 收益 50 000 万 美元 。 管 理 人 员 对 业务 有 着 统 
一 、 集 成 、 可 靠 的 认识 ， 因 此 可 制定 更 好 的 、 更 快 的 决策 。 

大 陆 航 空 公司 现在 已 成 为 实时 BI 领域 的 领军 者 ， 因 为 其 系统 具有 以 下 功能 : 可 扩展 延伸 的 架构 、 实 时 
捕获 何 种 数据 的 实践 决策 、 与 终端 用 户 的 良好 关系 、 精 干 的 数据 仓库 成 员 、 能 够 明智 衡量 战略 和 战术 决策 
支持 的 需求 、 理 解决 策 支持 与 业务 之 间 的 协同 、 运 用 实时 数据 改变 商业 流程 。 (请 登录 teradata. com/t/ 
page/139245/， 查 看 大 陆 航空 公司 的 样本 系统 输出 屏幕 。) 

本 章 结尾 应 用 案例 的 问题 

1. 介绍 大 陆 航空 公司 实施 前 行 计划 的 好 处 。 

2. 说 明 为 什么 航空 公司 运用 实时 数据 仓库 是 重要 的 。 

3. 检验 teradata. com/t/page/139245/. 的 样本 系统 输出 屏幕 。 说 明 它 是 如 何 帮 助 用 户 识别 问题 和 机 


4. 识别 传统 数据 仓库 和 大 陆 航 空 公司 实施 的 实时 数据 仓库 之 间 的 主要 区 别 。 
5. 与 传统 数据 仓库 相 比 ， 大 陆 航 空 公司 可 从 实时 系统 项 目 中 获取 什么 战略 优势 ? 


参考 文献 


References 


Adamson, C. (2009). The Star Schema Handbook: The 
Complete Reference to Dimensional Data Warehouse 
Design, Hoboken, NJ: Wiley. 

Agosta, L. (2006, January). “The Data Strategy Adviser: The 
Year Ahead—Data Warehousing Trends 2006.” DM Review, 
Vol. 16, No. 1. 

Akbay, S. (2006, Quarter 1). “Data Warehousing in Real 
Time.” Business Intelligence Journal, Vol. 11, No. 1. 

Ambeo. “Keeping Data Private (and Knowing It): Moving 
Beyond Conventional Safeguards to Ensure Data Privacy.” 
am-beo.com/why_ambeo_white_papers.html (ac- 
cessed May 2009). 

Ambeo. (2005, July). “Ambeo Delivers Proven Data Access 
Auditing Solution.” Database Trends and Applications, 
Vol. 19, No. 7. 


Anthes, G. H. (2003, June 30). “Hilton Checks into New 
Suite.” Computerworld, Vol. 37, No. 26. 

Ariyachandra, T., and H. Watson. (2006a, January). 
“Benchmarks for BI and Data Warehousing Success.” 
DM Review, Vol. 16, No. 1. 

Ariyachandra, T., and H. Watson. (2006b). “Which Data 
Warehouse Architecture Is Most Successful?” Business 
Intelligence Journal, Vol. 11, No. 1. 

Ariyachandra, T., and H. Watson. (2005). “Key Factors in 
Selecting a Data Warehouse Architecture.” Business 
Intelligence Journal, Vol. 10, No. 2. 

Armstrong, R. (2000, Quarter 3). “E-nalysis for the E-business.” 
Teradata Magazine Online, teradata.com. 

Ball, Š. K. (2005, November 14). “Do You Need a Data 
Warehouse Layer in Your Business Intelligence Architecture?” 


62 


S28 数据 仓库 


datawarehouse.ittoolbox.com/documents/industry- 
articles/do-you-need-a-data-warehouse-layer-in-your- 
business-intelligencearchitecture-2729 (accessed 
June 2009). 

Basu, R. (2003, November). “Challenges of Real-Time Data 
Warehousing.” DM Review. 

Bell, L. D. (2001, Spring). “MetaBusiness Meta Data for the 
Masses: Administering Knowledge Sharing for Your 
Data Warehouse.” Journal of Data Warehousing, Vol. 6, 
No. 2. 

Benander, A., B. Benander, A. Fadlalla, and G. James. (2000, 
Winter). “Data Warehouse Administration and Management.” 
Information Systems Management, Vol. 17, No. 1. 

Bonde, A., and M. Kuckuk. (2004, April). “Real World 
Business Intelligence: The Implementation Perspective.” 
DM Review, Vol. 14, No. 4. 

Breslin, M. (2004, Winter). “Data Warehousing Battle of the 
Giants: Comparing the Basics of Kimball and Inmon 
Models.” Business Intelligence Journal, Vol. 9, No. 1. 

Briggs, L. L. “DirecTV Connects with Data Integration 
Solution,” Business Intelligence Journal, Vol. 14, No. 1, 
2009, pp. 14-16. 

Brobst, S., E. Levy, and C. Muzilla. (2005, Spring). “Enterprise 
Application Integration and Enterprise Information 
Integration.” Business Intelligence Journal, Vol. 10, No. 2. 

Brody, R. (2003, Summer). “Information Ethics in the Design 
and Use of Metadata.” IEEE Technology and Society 
Magazine, Vol. 22, No. 2. 

Brown, M. (2004, May 9-12). “8 Characteristics of a 
Successful Data Warchouse.” Proceedings of the Twenty- 
Ninth Annual SAS Users Group International Conference 
(SUGI 29). Montreal, Canada. 

Burdett, J., and S. Singh. (2004). “Challenges and Lessons 
Learned from Real-Time Data Warehousing.” Business 
Intelligence Journal, Vol. 9, No. 4. 

Coffee, P. (2003, June 23). “‘Active’ Warehousing.” eWeek, 
Vol. 20, No. 25. 

Cooper, B. L., H. J. Watson, B. H. Wixom, and D. L. 
Goodhue. (2000). “Data Warehousing Supports Corporate 
Strategy at First American Corporation.” MIS Quarterly, Vol. 
24, No. 4, pp. 547-567. 

Cooper, B. L., H. J. Watson, B. H. Wixom, and D. L. Goodhue. 
(1999, August 15-19). “Data Warehousing Supports 
Corporate Strategy at First American Corporation.” SIM 
International Conference, Atlanta. 

Davison, D. (2003, November 14). “Top 10 Risks of Offshore 
Outsourcing.” META Group (now Gartner, Inc.) Research 
Report, Stamford, CT. 

Dragoon, A. (2003, July 1). “All for One View.” CIO. 

Eckerson, W. (2005, April 1). “Data Warehouse Builders 
Advocate for Different Architectures.” Application 
Development Trends. 

Eckerson, W. (2003, Fall). “The Evolution of ETL.” Business 
Intelligence Journal, Vol. 8, No. 4. 

Eckerson, W., R. Hackathorn, M. McGivern, C. Twogood, and 
G. Watson. (2009). “Data Warehousing Appliances.” 
Business Intelligence Journal, Vol. 14, No. 1, pp. 40—48. 

Edwards, M. (2003, Fall). “2003 Best Practices Awards 
Winners: Innovators in Business Intelligence and Data 
Warehousing.” Business Intelligence Journal, Vol. 8, No.4. 

"FEgg's Customer Data Warehouse Hits the Mark.” (2005, 
October). DM Review, Vol. 15, No. 10, pp. 24-28. 

Elson, R., and R. LeClerc. (2005). “Security and Privacy 
Concerns in the Data Warehouse Environment.” Business 
Intelligence Journal, Vol. 10, No. 3. 

Ericson, J. (2006, March). “Real-Time Realities.” BI Review. 


Furtado, P. (2009). “A Survey of Parallel and Distributed Data 
Warehouses.” International Journal of Data Warehousing 
and Mining, Vol. 5, No. 2, pp. 57-78. 

Golfarelli, M., and Rizzi, S. (2009). Data Warehouse Design: 
Modern Principles and Methodologies. San Francisco, CA: 
McGraw-Hill Osborne Media. 

Gonzales, M. (2005, Quarter 1). “Active Data Warehouses Are 
Just One Approach for Combining Strategic and Technical 
Data.” DB2 Magazine. 

Hall, M. (2002, April 15). “Seeding for Data Growth.” 
Computerworld, Vol. 36, No. 16. 

Hicks, M. (2001, November 26). “Getting Pricing Just Right.” 
eWeek, Vol. 18, No. 46. 

Hoffer, J. A., M. B. Prescott, and F. R. McFadden. (2007). 
Modern Database Management, 8th ed. Upper Saddle 
River, NJ: Prentice Hall. 

Hwang, M., and H. Xu. (2005, Fall). “A Survey of Data 
Warehousing Success Issues.” Business Intelligence 
Journal, Vol. 10, No. 4. 

TBM. (2009). 50 TB Data Warehouse Benchmark on IBM 
System Z. Armonk, NY: IBM Redbooks. 

Imhoff, C. (2001, May), “Power Up Your Enterprise Portal.” 
F-Business Advise. 

Inmon, W. H. (2006, January). “Information Management: 
How Do You Tune a Data Warehouse?” DM Review, 
Vol. 16, No. 1. 

Inmon, W. H. (2005). Building the Data Warehouse, 4th ed. 
New York: Wiley. 

Jukic, N., and C. Lang. (2004, Summer). “Using Offshore 
Resources to Develop and Support Data Warehousing 
Applications.” Business Intelligence Journal, Vol. 9, 
No. 3. 

Kalido. “BP Lubricants Achieves BIGS Success.” kalido.com/ 
collateral/Documents/English-US/CS-BP%20BIGS. pdf 
(accessed August 2009). 

Kalido. “BP Lubricants Achieves BIGS, Key IT Solutions.” 
keyitsolutions.com/asp/rptdetails/report/95/cat/1175/ 
(accessed August 2009). 

Karacsony, K. (2006, January). “ETL Is a Symptom of the 
Problem, not the Solution.” DM Review, Vol. 16, No. 1. 
Kassam, S. (2002, April 16). “Freedom of Information.” 

Intelligent Enterprise, Vol. 5, No. 7. 

Kay, R. (2005, September 19). “FIT.” Computerworld, Vol. 39, 
No. 38. 

Kelly, C. (2001, June 14). “Calculating Data Warehousing 
ROI.” SearchSQLServer.com Tips. 

Malykhina, E. (2003, January 3). “The Real-Time Imperative.” 
Information Week, Issue 1020. 

Manglik, A., and V. Mehra. (2005, Winter). “Extending 
Enterprise BI Capabilities: New Patterns for Data 
Integration.” Business Intelligence Journal, Vol. 10, No. 1. 

Martins, C. (2005, December 13). “HP to Consolidate Data 
Marts into Single Warehouse.” Computerworld. 

Matney, D. (2003, Spring). “End-User Support Strategy.” 
Business Intelligence Journal, Vol. 8, No. 2. 

McCloskey, D. W. (2002). Choosing Vendors and Products to 
Maximize Data Warehousing Success. New York: 
Auerbach Publications. 

Mehra, V. (2005, Summer). “Building a Metadata-Driven 
Enterprise: A Holistic Approach.” Business Intelligence 
Journal, Vol. 10, No. 3. 

Moseley, M. (2009). “Eliminating Data Warehouse Pressures 
with Master Data Services and SOA.” Business Intelligence 
Journal, Vol. 14, No. 2, pp. 33-43. 

Murtaza, A. (1998, Fall). “A Framework for Developing 
Enterprise Data Warehouses.” Information Systems 


Management, Vol. 15, No. 4. 

Nash, K. S. (2002, July). “Chemical Reaction.” Baseline. 

Orovic, V. (2003, June). “To Do & Not to Do.” eAl Journal. 

Parzinger, M. J., and M. N. Frolick. (2001, July). “Creating 
Competitive Advantage Through Data Warehousing.” 
Information Strategy, Vol. 17, No. 4. 

Peterson, T. (2003, April 21). “Getting Real About Real Time.” 
Computerworld, Vol. 37, No. 16. 

Reeves, L. (2009). Manager's Guide to Data Warehousing. 
Hoboken, NJ: Wiley. 

Romero, O., and A. Abelló. (2009). “A Survey of 
Multidimensional Modeling Methodologies.” International 
Journal of Data Warehousing and Mining, Vol. 5, No. 2, 
pp. 1-24. 

Rosenberg, A. (2006, Quarter 1). “Improving Query 
Performance in Data Warehouses.” Business Intelligence 
Journal, Vol. 11, No. 1. 

Russom, P. (2009). “Next Generation Data Warehouse 
Platforms.” TDWI Best Practices Report, available at 
tdwi.org/research/reportseries/reports.aspx?pid=842 tdwi. 
org (accessed January 2010). 

Saunders, T. (2009). “Cooking up a Data Warehouse.” 
Business Intelligence Journal, Vol. 14, No. 2, pp. 16-22. 

Schwartz, K. D. “Decisions at the Touch of a Button.” 
Teradata Magazine, teradata.com/t/page/117774/ 
index.html (accessed June 2009). 

Schwartz, K. D. (2004, March). “Decisions at the Touch of a 
Button.” DSS Resources, pp. 28-31. dssresources.com/cases/ 
coca-colajapan/index.huml (accessed April 2006). 

Sen, A. (2004, April). “Metadata Management: Past, Present, 
and Future.” Decision Support Systems, Vol. 37, No. 1. 

Sen, A., and P. Sinha (2005). “A Comparison of Data 
Warehousing Methodologies.” Communications of the 
ACM, Vol. 48, No. 3. 

Solomon, M. (2005, Winter).”Ensuring a Successful Data 
Warehouse Initiative.” Information Systems Management, 
Vol. 22, No. 1 26-30. 

Songini, M. L. (2004, February 2). “ETL Quickstudy.” 
Computerworld, Vol. 38, No. 5. 

Sun Microsystems. (2005, September 19). “Egg Banks on Sun 
to Hit the Mark with Customers.” sun.com/smi/Press/ 
sunflash/2005-09/sunflash.20050919.1.xml (accessed 
April 2006; no longer available online). 

Tannenbaum, A. (2002, Spring). “Identifying Meta Data 
Requirements.” Journal of Data Warehousing, Vol. 7, No. 2. 

Teradata Corp. “A Large US-based Insurance Company 


第 2 章 数据 仓库 ， 


Masters Its Finance Data.” teradata.com/t/WorkArea/ 
DownloadAsset.aspx?id=4858 (accessed July 2009). 
Teradata Corp. “Active Data Warehousing.” teradata.com/t/ 

page/87127/index.html (accessed April 2006). 

Teradata Corp. “Coca-Cola Japan Puts the Fizz Back in 
Vending Machine Sales.” teradata.com/t/page/118866/ 
index.html (accessed June 2009). 

Teradata Corp. “Enterprise Data Warehouse Delivers Cost 
Savings and Process Efficiencies." teradata.com/ 
t/resources/case-studies/NCR-Corporation-eb4455/ 
(accessed June 2009). 

Terr, S. (2004, February). “Real-Time Data Warehousing: 
Hardware and Software.” DM Review, Vol. 14, No. 2. 

Thornton, M. (2002, March 18). “What About Security? 
The Most Common, but Unwarranted, Objection to Hosted 
Data Warehouses.” DM Review, Vol. 12, No. 3, pp. 30-43. 

‘Thornton, M., and M. Lampa. (2002). “Hosted Data Warehouse.” 
Journal of Data Warehousing, Vol. 7, No. 2, pp. 27-34. 

Vaduva, A., and T. Vetterli. (2001, September). “Metadata 
Management for Data Warehousing: An Overview.” 
International Journal of Cooperative Information Systems, 
Vol. 10, No. 3. 

Van den Hoven, J. (1998). “Data Marts: Plan Big, Build Small.” 
Information Systems Management, Vol. 15, No. 1. 

Watson, H. J. (2002). “Recent Developments in Data 
Warehousing.” Communications of the ACM, Vol. 8, No. 1. 

Watson, H. J., D. L. Goodhue, and B. H. Wixom. (2002). “The 
Benefits of Data Warehousing: Why Some Organizations 
Realize Exceptional Payoffs.” Information G Management, 
Vol. 39. 

Watson, H., J. Gerard, L. Gonzalez, M. Haywood, and 
D. Fenton. (1999), “Data Warehouse Failures: Case 
Studies and Findings.” Journal of Data Warehousing, 
Vol. 4, No. 1. 

Weir, R. (2002, Winter). “Best Practices for Implementing a Data 
Warehouse.” Journal of Data Warebousing, Vol. 7, No. 1. 

Wilk, L. (2003, Spring). “Data Warehousing and Real-Time 
Computing.” Business Intelligence Journal, Vol. 8, No. 2. 

Wrembel, R. (2009). “A Survey of Managing the Evolution of 
Data Warehouses.” International Journal of Data 
Warehousing and Mining, Vol. 5, No. 2, pp. 24-56. 

ZD Net UK. “Sun Case Study: Egg’s Customer Data Warehouse.” 
whitepapers.zdnet.co.uk /0,39025945,60159401 
p-39000449q,00. htm (accessed June 2009). 

Zhao, X. (2005, October 7). “Meta Data Management Maturity 
Model,” DM Direct Newsletter. 


63 


第 3 章 | 


Business Intelligence; A Managerial Approach, 2E 


业务 绩效 管理 





学 习 目 标 

u 全 面 理解 BPM 

E 理解 闭环 过 程 如 何 将 战略 与 实施 相 结合 
加 描述 计划 和 管理 报告 中 出 色 的 实践 案例 
图 描述 绩效 管理 和 指标 的 区 别 

m 理解 BPM 中 各 种 方法 论 的 作用 

E 描述 平衡 记分 卡 和 六 西格玛 原理 

E 理解 记分 卡 和 仪表 盘 的 区 别 

加 理解 基本 的 仪表 盘 设计 


业务 绩效 管理 (Business Performance Management, BPM) 是 决策 支持 系统 (Decision Support 
System, DSS), AWF S R (Enterprise Information System, EIS), R44% fE (Business Intelli- 
gence, BI) 的 进一步 发 展 。 从 进入 市 场 开始 ， 它 经 过 了 25 年 的 发 展 。 由 于 融 人 了 决策 支持 ， 所 
以 BPM 不 仅仅 是 一 项 技术 。 它 将 过 程 、 方 法 、 度 量 和 应 用 设计 融 为 一 体 ， 带 动 了 整个 企业 全 面 
的 财务 和 业务 绩效 管理 。 它 能 够 帮助 企业 将 其 战略 和 目标 转换 成 计划 ， 监 控 违反 计划 的 绩效 ， 分 
析 计 划 的 结果 和 实际 结果 之 间 的 差异 ， 并 通过 调整 企业 的 目标 和 行动 来 对 分 析 结果 进行 反馈 。 

本 章 主要 介绍 BPM 的 基本 过 程 、 方 法 、 度 量 和 系统 。 由 于 BPM 注重 战略 和 方法 ， 所 以 ， 它 
区 别 于 DSS 和 BI， 本 章 将 从 探寻 企业 的 战略 及 其 执行 的 概念 ， 以 及 它们 之 间 存 在 的 差距 开始 
谈 起 。 


开篇 场景 ;Harrah 公司 加 倍 下 注 

从 1937 年 开始 运营 的 Harrah 娱乐 公司 是 世界 上 最 大 的 博彩 公司 。 在 它 运营 的 大 部 分 时 间 
里 ， 其 财务 表现 卓越 并 得 到 了 前 所 未 有 的 扩张 。 在 2000 年 ，Harrah 公司 旗下 17 个 市 场 的 21 家 
赌博 旅店 遍布 全 美 ， 员 工 超过 40 000 人 ， 累 计 为 1900 万 名 顾客 提供 服务 。 到 了 2008 年 ， 这 些 数 
据 已 经 变 为 遍布 6 大 洲 的 51 家 赌博 酒店 ，85 000 万 员工 ，4 000 万 名 顾客 。Harrah 公司 的 大 部 分 
成 就 归功 于 其 精明 的 市 场 营 销 运作 和 优质 的 服务 以 及 并 购 战略 。 

问题 

除了 在 博彩 业 成 为 领军 企业 外 ，Harrah 公司 也 一 直 是 商务 智能 和 绩效 管理 领域 的 领头 军 。 与 
竞争 者 不 同 的 是 ，Harrah 公司 通常 避免 向 旅店 、 购 物 中 心 和 旅游 景点 无 节制 地 投资 。 它 的 运营 都 
是 基于 一 个 基本 的 商业 战略 :“ 深 入 了 解 顾客 的 需求 ， 向 他 们 提供 优质 的 服务 ， 用 他 们 的 忠诚 作 
为 回报 ， 这 样 无 论 何 时 何 地 当 他 们 想 玩 的 时 候 就 会 想到 Harrah 公司 ( Waston and Volonino, 
2001) 。” 这 一 战略 的 执行 ， 得 益 于 创意 营销 、 善 于 应 用 信息 技术 和 出 色 的 经 营 。 

这 一 战略 在 20 世纪 90 年 代 后 期 ， 由 时 任 Harrah 公司 首席 运营 官 的 Gary Loveman 提出 。 现 
Æ, Loveman 是 Harrah 娱乐 公司 的 主席 、 董 事 长 和 首席 执行 官 。 在 进入 Harrah 公司 之 前 ，Love- 
man 是 哈佛 大 学 商务 管理 研究 生 院 的 副教授 ， 他 在 零售 市 场 营销 和 服务 管理 方面 有 着 丰富 的 经 
验 。 当 他 进入 Harrah 公司 时 ,分 配给 他 的 任务 是 将 Harrah 公司 转换 成 “建立 顾客 品牌 忠诚 度 的 
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市 场 导 向 的 企业 ” (Swabey，2007)。 当 时 ，Harrah 公司 几乎 没有 选择 ， 没 有 足够 的 资金 向 它 的 
竞争 对 手 Bellagio 那样 建立 新 的 豪华 赌场 和 娱乐 场 中 心 。 相 反 ， 它 决定 通过 了 解 顾客 的 行为 和 表 
H, 将 投资 回报 率 最 大 化 。 这 是 因为 在 高 度 竞 争 的 博彩 娱乐 市 场 ， 吸 引 并 留 住 顾客 是 一 个 企业 成 
功 的 关键 ， 因 为 顾客 忠诚 度 和 满意 度 可 以 成 就 也 可 以 毁灭 一 个 公司 。 吸 引 并 满足 顾客 需求 比 豪 
华 的 住所 或 环境 更 加 有 效 。 但 是 ， 这 个 目标 必须 要 通过 说 服 赌 徒 们 更 多 地 购买 Harrah 公司 的 资 
产 来 实现 。 

因为 Harrah 公司 的 会 员 卡 制度 已 经 实行 很 多 年 了 ， 所 以 它 的 顾客 对 它 已 经 了 解 得 很 透彻 
(Swabey，2007) 。 但 是 ， 分 组 座谈 会 透露 了 管理 层 们 的 疑虑 一 一 顾客 们 也 许 有 卡 ， 但 是 他 们 并 不 
忠诚 于 Harrah 公司 。 他 们 博彩 的 将 近 65% 的 资金 花 在 了 别处 。 第 一 步 就 是 要 找 出 企业 的 顾客 是 
谁 。 经 过 分 析 揭 示 两 个 事实 : (1) 超过 80% 的 收益 来 自 超过 25% 的 顾客 ; (2) 大 部 分 顾客 都 是 
“普通 人 ”( 中 老年 人 )， 而且 并 不 是 被 奢侈 的 场所 吸引 来 的 (Shill and Thomas ，2005 ) Harrah 
公司 怎样 收集 、 利 用 和 调整 这 些 数 据 ， 分 析 和 发 现 客户 类 型 ， 以 使 终生 价值 最 大 化 呢 ? 

解决 方案 

Harrah 公司 的 答案 是 一 个 称 为 “Total Cold” 的 解决 方案 , “Total Gold” 是 一 项 申请 了 专利 的 
客户 忠诚 度 解决 方案 ， 现 在 又 叫 “Total Rewards” 解 决 方案 。 这 项 方案 不 仅 通过 现金 和 赠 券 的 方 
式 回报 顾客 在 Harrah 的 任何 一 家 娱乐 场所 进行 的 博彩 或 者 其 他 任何 活动 ， 更 重要 的 是 ， 这 项 计 
划 向 企业 提供 了 广泛 收集 有 关上 顾客 及 其 行为 的 大 量 的 、 实 时 的 交易 信息 。 信 息 通 过 记录 顾客 所 
有 行为 (例如 ， 在 饭店 消费 、 饮 酒 情况 、 在 博彩 中 的 损失 情况 等 ) 的 “Total Rewards” 卡 收集 。 

这 些 信息 提供 给 中 央 数 据 仓 库 。 世 界 各 地 的 Harrah 员工 都 可 以 访问 这 些 数据 。 这 个 数据 仓 
库 构 成 了 “闭环 ”的 市 场 营销 系 统 的 基础 ， 该 系统 使 得 Harrah 公司 在 营销 竞争 中 清晰 地 界定 自 
己 的 目标 ， 执 行 和 监控 这 些 活动 ， 从 中 了 解 哪 种 特定 类 型 的 顾客 在 什么 种 类 的 活动 中 可 以 为 企 
业 带 来 最 大 的 收益 。 综 合 的 结果 是 Harrah 公司 建成 了 一 个 “可 以 不 断 提高 客户 服务 交互 和 业务 
成 果 的 、 差 别 化 的 忠诚 度 和 服务 框架 ” (Stanley，2006 ) ， 同 时 这 一 系统 也 向 Harrah 的 运营 系统 
提供 实时 信息 ， 该 运营 系统 可 以 对 顾客 博彩 或 参加 Harrah 公司 的 其 他 活动 产生 很 大 影响 。 

结果 和 产生 的 新 问题 

Harrah 公司 的 Total Rewards 会 员 卡 方案 和 闭环 市 场 营 销 系统 在 过 去 的 几 十 年 里 为 它 带 来 了 可 
观 的 回报 ， 包 括 (Watson and Volonino, 2001) : 

。 Harrah 赌场 的 品牌 认定 

。 增加 了 价值 几 百 万 美元 的 忠诚 于 Harrah 公司 的 顾客 

。 增加 了 参加 多 个 Harrah 公司 娱乐 活动 的 顾客 数量 ， 增 加 了 数 百 万 美元 的 盈利 能 力 

。 提高 了 企业 信息 技术 投资 方面 的 内 部 回报 率 

总 之 ， 相 对 于 竞争 对 手 ， 顾 客 在 Harrah 公司 的 任意 消费 每 年 都 有 可 观 的 增长 ， 这 样 的 结果 
就 是 给 企业 增加 了 数 亿美 元 的 收益 。 

这 一 系统 获 过 很 多 奖项 (例如 TDWI 最 佳 实践 奖 ) ， 并 且 成 为 许多 案例 研究 的 课题 。 它 曾经 
被 评价 为 “当今 最 伟大 、 最 成 功 的 指导 行动 的 案例 ” (Swabey，2007) 。 当 然 ， 奖 品 和 荣誉 不 能 
成 为 将 来 成 功 的 保障 ， 尤 其 是 面 对 全 球 经 济 不 景气 的 时 候 。 

到 2007 年 年 底 的 这 10 年 中 ,美国 娱乐 业 的 每 股 收益 明显 高 于 其 他 行业 ( Knowledge @ 
W. P. Carey，2009) 。 但 是 过 去 的 两 年 发 生 了 变化 。 虽 然 被 认为 是 不 受 经 济 低迷 的 影响 ， 但 娱乐 
业 实 质 上 正在 遭受 资本 市 场 和 世界 经 济 骨 省 的 影响 。 如 拉 斯 维 加 斯 等 城市 ， 不 仅 酒 店 人 住 率 下 
降 ， 平 均 每 个 游客 的 消费 水 平 也 在 下 降 。 很 多 赌场 的 情况 并 不 确定 ， 因 为 他 们 花费 巨额 的 债务 修 
建新 的 更 大 更 豪华 的 酒店 赌场 ， 没 有 足够 的 资金 储备 摆脱 收益 下 降 的 困境 。 

与 它 的 竞争 对 手 不 同 ，Harrah 公司 没有 高 大 的 建筑 物 (Shill and Thomas, 2005), 。 但 是 ， 与 


- 65 


66 


第 3 章 业务 绩效 管理 


它 的 竞争 对 手 一 样 ，Harrah 也 面临 着 大 量 的 经 济 问题 。 在 2009 年 的 前 3 个 月 ， 它 宣布 的 运营 亏 
损 为 12 700 万 美元 ， 虽 然 与 上 年 同期 相 比 有 所 减少 。 在 2008 年 的 前 3 个 月 ， 它 的 运营 损失 为 
27 000 万 美元 。 在 2008 年 ， 在 Harrah 公司 从 Apollo 管理 公司 和 TGP 资本 公司 私下 借贷 之 后 ， 它 
的 债务 负担 翻 了 一 番 GERT 240 亿美 元 ) ， 如 今 它 的 高 额 贷款 将 它 推 到 了 破产 的 边缘 。 

所 以 ， 即 使 Harrah 公司 实施 备 受 赞赏 的 绩效 管理 系统 很 多 年 了 ， 被 公认 为 数据 使 用 和 预测 
分 析 的 带头 人 ， 但 它 仍然 免不了 有 和 它 的 “小 型 竞争 者 ”一 样 的 战略 上 的 问题 和 经 济 问题 。 

Harrah 公司 仍然 依赖 它 的 市 场 营销 活动 来 增加 需求 。 另 外 ， 它 采取 了 一 系列 的 举措 来 减少 债 
务 和 花费 。 在 2008 年 12 A, Harrah 公司 完成 了 债务 交换 方案 ， 使 其 债务 减少 了 11.6 亿美 元 ， 
并 且 正 在 实施 另 一 项 债务 削减 和 成 熟 度 延 伸 计 划 ， 这 为 它 节省 了 280 万 美元 。 就 像 其 他 赌博 公司 
一 样 ， 它 在 经 济 衰退 期 间 解雇 了 拉 斯 维 加 斯 的 1 600 名 员工 ， 削 减 管理 人 员 的 薪酬 ， 暂 停 了 401K 
捐献 。 尽 管 它 延迟 了 在 恺 撤 皇 官 660 多 间 房 间 的 建设 ， 但 却 一 直 在 恺 撤 皇 宫 建设 新 的 会 议 中 心 ， 
预订 很 火爆 。 

管理 层 也 受到 了 来 自 “ 效 应 -管理 ”流程 的 激励 ， 这 一 流程 由 丰田 公司 提出 ， 被 称 为 精益 运 
营 管理 。 精 益 运 营 管理 是 注重 效率 而 不 是 效力 的 绩效 管理 框架 。Harrah 公司 首先 使 用 了 这 个 框架 
的 几 个 性 能 ， 并 于 2009 年 在 全 企业 内 推广 。 


开篇 场景 的 问题 


1. 描述 Harrah 公司 的 营销 战略 。Harrah 公司 与 它 的 竞争 对 手 存在 哪些 不 同 ? 

2. Harrah 公司 的 Total Rewards 项 目 指 的 是 什么 ? 

3. Harrah 公司 的 闭环 营销 系统 的 基本 因素 是 什么 ? 

4. Harrah 公司 营销 战略 的 结果 是 什么 ? 

5. 现在 Harrah 公司 面临 什么 样 的 经 济 问题 ? Total Rewards 系统 可 以 在 一 定 程 度 上 解决 这 些 问题 吗 ? 

我 们 从 开篇 场景 中 能 够 学 到 什么 

在 过 去 的 几 年 中 ，Harrah 公司 的 闭环 市 场 营销 系统 使 得 它 可 以 实施 明显 区 别 于 它 的 竞争 对 手 的 战略 。 
这 一 系统 同样 提供 了 管理 业务 和 战术 关键 监控 指标 的 手段 。 这 一 系统 的 问题 是 建立 在 经 济 增长 的 假设 上 的 ， 
或 者 至 少 有 稳定 的 需求 。 它 做 不 到 或 在 短 时 间 内 难以 实现 的 是 预测 急剧 减少 的 或 不 存在 的 需求 ， 或 者 经 济 
上 的 基本 变化 。 就 像 Harrah 的 首席 执行 官 Loveman 所 说 的 , “我 们 对 经 济 训 退 没有 经 验 ， 我 们 习惯 了 过 去 
很 长 一 段 时 间 里 的 基本 重组 财务 互动 ， 现 在 还 不 是 很 清楚 它 的 走向 。 

来 源 : Compiled from Knowledge @ W.P. Carey, “ High- Rolling Casinos Hit a Lose Streak,” March 2, 2009, 
knowledge. wpcarey. asu. edu/article. cfm? articleid = 1752#( accessed January 2010) ; S. Green, “ Harrah’ s Re- 
ports Loss ,Says LV Properties Hit Hard,” Las Vegas Sun, March 13 ,2009 ,lasvegassun. com/news/2009/mar/13/ 
harrahs- reports- losss- says- Iv- properties- hit- hard ( accessed January 2010) ; W. Shill and R. Thomas, “ Exploring 
the Mindset of the High Performer,” Outlook Journal, October 2005 , accenture. com/ Glabal/ Research _and_In- 
sights/Outlook/By_Issue/Y2005/ExploringPerformer. htm ( accessed January 2010 ) ; T. Stanley, “ High- Stakes 
Analytics,” Information Week , February 1 ,2006 , informationweek. com/shared/printableArticle. jhtml? articlelD = 
177103414 (accessed January 2010) ;P. Swabey , “Nothing Left to Chance,” Information Age, January 18 ,2007 , infor- 
mation- age. com/channels/information- management/features/2772256/nothing- left- to- chance. thtml ( ac- 
cessed Januatry 2010) ; and H. Watson and L. Volonino, “ Harrah’ High Payoff from Customer Information,” the Data 
Warebousing Institute Industry Study 2000—Harnessing Customer Information for Strategic Advantage ; Technical Cbal- 
lenges and Business Solutions , January 2001 , terry. uga. edu/ ~ hwatson/Harrahs. doc( accessd January 2010). 


3. 1 业务 绩效 管理 概述 


如 同 这 章 将 要 表述 的 那样 ，Harrah 公司 的 闭环 市 场 营销 系统 具有 绩效 管理 系统 的 所 有 特 
点 。 更 重要 的 是 ， 这 一 系统 将 Harrah 公司 的 战略 、 计 划 、 分 析 系 统 和 行动 贯穿 一 线 ， 使 得 它 
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可 以 稳定 地 提高 企业 绩效 。Harrah 公司 最 近 的 经 验 也 告诉 我 们 ， 相 对 于 某 个 方面 而 言 〈 例 如 
仅仅 关注 市 场 或 顾客 忠诚 度 ) ， 成 功 的 绩效 管理 应 该 是 多 方面 的 ， 同 时 要 具备 对 假设 提出 质疑 
和 探索 的 能 力 ， 特 别 是 在 不 稳定 的 时 期 。 组 织 如 果 想 获得 长 期 的 成 功 ， 就 需要 坚持 不 懈 地 调 
整 自己 (Axson，2007)。 企 业 的 绩效 管理 进程 是 评估 企业 为 存活 和 发 展 而 进行 改变 和 调整 的 
有 效 途 径 。 

3.1.1 BPM 定义 


在 商业 和 贸易 领域 中 ， 绩 效 管理 有 许多 名 称 ， 包 括 企 业 法 人 绩效 管理 (Corporate Performance 
Management，CPM) 、 企 业绩 效 管理 (Enterprise Perfomance Management, EPM) 、 战略 企业 管理 
(Strategic Enterprise Management，SEM) 和 业务 绩效 管理 。CPM 是 由 市 场 分 析 公 司 Gartner 提出 的 
(gartner. com) 。EPM 是 Oracle 公司 旗下 的 仁科 (PeopleSoft) 公司 提出 的 有 相同 含义 的 术语 。 
SEM 是 SAP (sap. com) 使 用 的 术语 。 在 这 章 中 ,使 用 的 是 BPM 而 不 是 其 他 的 术语 ， 因 为 这 一 
术语 最 早 由 BPM 标准 协会 提出 ， 并 且 在 BPM 论坛 中 仍 在 沿用 。 术 语 业 务 绩效 管理 (Business 
Performance Management, BPM) 是 指 企业 用 于 计量 、 监 控 和 管理 业务 绩效 的 业务 流程 、 方 法 、 指 
标 和 技术 。 它 有 3 个 主要 的 组 成 部 分 (Colbert, 2009) : 

1. 相关 技术 支持 下 的 闭环 管理 和 分 析 过 程 的 整合 ， 用 于 指导 财务 和 运营 活动 

2. 用 来 在 业务 上 定义 战略 目标 ， 并 计量 和 管理 针对 目标 绩效 的 工具 

3. 一 系列 核心 的 过 程 ， 包 括 财务 和 运营 计划 、 合 并 和 报表 、 建 模 、 分 析 和 监控 关键 绩效 指 

标 (Key Performance Indicator，KPI) ， 并 与 企业 战略 紧密 相连 


3.1.2 比较 BPM 和 BI 


BPM 是 BI 发 展 的 产物 ， 它 融合 了 很 多 BI 的 技术 、 应 用 和 技能 。 当 BPM 第 一 次 作为 独立 的 
概念 被 提出 时 ， 人 们 对 BPM 和 BI 之 间 的 区 别 感 到 疑惑 。 这 会 不 会 仅仅 是 相同 概念 的 不 同 术 语 ? 
或 者 BPM 是 BI 的 新 一 代 ， 再 或 者 这 两 者 之 间 真 的 存在 实质 性 的 不 同 ? 因为 以 下 的 各 种 原因 ， 这 
些 疑 惑 今天 依然 存在 : 

。 BPM 和 BI 工具 和 套件 的 推销 和 销售 是 同一 家 公司 

e BI 也 在 不 停 地 演变 ， 导 致 两 者 之 间 原 本 存在 的 差异 逐渐 消失 (例如 BI 曾经 专注 于 部 门 

内 部 而 不 是 整个 企业 ) 

e BI 是 BPM 的 关键 要 素 

EART, BI 这 个 术语 是 用 于 描述 访问 、 分 析 和 报告 企业 相关 数据 的 技术 。 它 包括 一 系列 连续 
的 软件 ， 如 特定 查询 、 报 表 、 在 线 分 析 处 理 、 仪 表盘 、 记 分 卡 ， 搜 索 和 可 视 化 等 。 这 些 软件 产品 
开始 是 独立 的 工具 ， 但 是 BI 软件 提供 商 已 经 将 它们 整合 为 BI 套件 。 

BPM 被 认为 是 “BI+ 计划”， 意 思 是 BPM 是 BI 和 同一 平台 上 计划 的 聚合 ， 即 计划 、 监 控 
和 分 析 整 个 周期 (Calumo Group, 2009), BPM 包括 的 过 程 并 不 是 全 新 的 。 事 实 上 ， 每 个 大 中 
型 企业 在 对 全 局 的 战略 计划 及 运营 计划 有 反馈 的 地 方 ( 例 如， 预算 、 具 体 的 计划 、 执 行 和 测 
F) 都 存在 进程 。BPM 增加 的 是 集成 这 些 流程 、 方 法 、 指 标 和 系统 ， 从 而 成 为 一 个 整体 的 解 
决 方案 。 

BI 实践 和 软件 可 以 说 就 是 BPM 解决 方案 的 一 部 分 。 然 而 ，BPM 不 仅仅 是 软件 。BPM 是 企业 
级 的 战略 ， 以 防止 企业 牺牲 总 体 的 绩效 来 达到 局 部 业务 的 最 优化 。BPM 不 是 一 次 性 的 方案 或 者 
只 关注 部 分 的 方案 。 相 反 ，BPM 是 一 系列 不 断 发 展 的 流程 ， 如 果 使 用 得 当 ， 将 对 企业 产生 巨大 
影响 。BPM 成 功 的 关键 就 是 将 整个 企业 贯穿 起 来 。 它 “帮助 用 户 通过 行动 来 实现 他 们 “共同 的 
事业 ' : 达到 绩效 目标 、 执 行 企业 战略 、 给 相关 利益 者 传递 价值 ”(Tucker and Dimon, 2009) 。 
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这 并 不 意味 着 BI 项 目 不 能 有 明确 的 战略 、 集 中 的 控制 ， 或 者 从 根本 上 影响 企业 。 例 如 ， 运 
输 安 全 机 构 (Transportation Security Administration, TSA) 使 用 称 为 绩效 信息 系统 (Performance 
Information System, PIMS) 的 商务 智能 系统 来 跟 
踪 客 户 流量 、 屏 幕 绩效 GRRE, WI, WIERA 
伤 病 ) 、 和 危险 项 目 和 总 客户 吞吐 量 (Henschen， 
2008)。 这 个 系统 是 以 MicroStrategy (microstrat- 
egy. com) 的 商务 智能 软件 为 基础 构架 ， 系 统 每 
天 的 高 级 用 户 使 用 量 达 到 2 500 人 ， 每 周 的 临时 
用 户 达 到 9500 Ao PIMS 中 的 信息 对 TSA 的 运营 
十 分 重要 ， 并 且 在 某 些 情况 下 接受 国会 指令 。 
TSA 从 最 高 层 到 最 底层 的 员工 都 在 使 用 这 个 系 
统 ， 并 在 2007—2008 年 的 财务 年 中 ， 成 功 地 节 
省 了 大 约 1 亿美 元 的 代理 费用 。 很 明显 ， 这 个 系 
统 具 有 战略 和 运行 的 价值 。 然 而 ， 它 不 是 BPM 
系统 。 

最 基本 的 区 别 在 于 BPM 是 战略 驱动 的 。 它 
包含 一 系列 从 战略 到 行动 的 闭环 过 程 ， 目 的 在 于 
使 企业 的 经 营 绩效 达到 最 优 (DLP 3-1)。 这 个 图 3-1 BPM 周期 
周期 暗示 ， 达 到 最 佳绩 效 要 从 确定 目标 和 方向 开 来 源 : W. Eckerson, “Performance Management Strategies: 
始 《 也 就 是 起 略 ) ， 制定 达到 这 些 目标 的 举 皇 和。 Hn Cont Dn Pesan gm 
计划 (也 就 是 计划 ) ， 控 制 偏离 目标 和 方向 的 真 
实绩 效 (也 就 是 监控 ) ， 采 取 改 正 的 行动 (也 就 是 行动 和 调整 ) 。3.3 ~3.6 节 将 详细 研究 这 些 主 
要 步骤 。 


3. 1 节 复 习题 


1. 定义 BPM。 

2. BPM 和 BI 有 何不 同 ? 它们 的 相同 点 有 哪些 ? 
3. 简要 描述 TSA 的 PIMS。 

4. 列举 BPM 的 主要 步骤 。 


3.2 制定 战略 : 我 们 想到 哪里 去 


暂时 将 你 想象 为 一 个 长 跑 者 ， 正 在 为 即将 到 来 的 比赛 训练 。 在 准备 时 ,假如 教练 对 你 说 : 
“我 对 这 个 比赛 不 是 很 了 解 ， 也 不 确定 距离 是 多 少 ， 但 是 我 认为 你 应 该 出 去 ， 每 天 跑 个 小 时 ， 
直到 比赛 那天 。 最 后 就 可 以 成 功 了 。” 如 果 教 练 这 人 么 说 ， 你 肯定 认为 教练 在 胡说 。 很 明显 ， 为 了 
使 训练 计划 有 意义 ， 你 需要 知道 将 要 参加 的 是 什么 类 型 的 比赛 〈 例 如 ,马拉松 、 半 程 马拉松 ， 
还 是 10 英里 ) ， 你 期 望 的 完成 时 间 是 多 少 〈 例 如 ， 取 得 前 5 名 的 成 绩 需 要 2 小 时 10 分 钟 ) 。 你 还 
应 该 知道 自己 的 优势 和 劣势 ， 以 确定 目标 是 否 能 够 实行 ， 为 了 达到 这 一 目标 需要 做 哪些 准备 
〈 例 如， 在 比赛 的 最 后 阶段 的 冲刺 有 困难 ) 。 

像 上 面 的 教练 一 样 运营 管理 的 公司 数量 十 分 惊人 ， 特 别 是 在 企业 不 稳定 或 者 困难 时 期 。 通 
常 ， 反 对 的 声音 认为 :“ 制 定 战略 ， 形 成 正式 的 计划 太 慢 并 且 十 分 不 灵活 ， 你 需要 的 是 采取 针对 
我 们 企业 特殊 时 期 的 更 醒目 、 更 协调 的 行动 ， 如 果 花 费 大 量 的 时 间 定 义 目 标 、 明 确 重点 、 形 成 战 
\ 略 、 管 理 结果 ， 必 定 有 人 在 最 后 将 你 打败 。” 然而， 没有 明确 的 目标 或 目的 ， 在 行动 的 过 程 中 很 
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难 取舍。 没有 明确 的 优先 次 序 ， 根 本 无 法 在 这 些 挑选 出 的 选择 中 决定 怎样 分 配 资源 。 没 有 计划 ， 
就 无 法 对 工作 任务 进行 指导 。 没 有 分 析 和 评价 ， 就 不 能 决定 哪个 机 会 将 成 功 或 者 失败 。 目 标 、 目 
的 、 优 先 次 序 、 计 划 和 批判 性 思维 组 成 了 意义 明确 的 战略 。 


3.2.1 战略 规划 


战略 这 一 术语 有 很 多 定义 。 由 于 它 经 常 和 其 他 术语 混用 ， 所 以 人 们 对 此 很 容易 感到 困惑 ， 
例如 战略 愿景 、 战 略 重 点 。 除 去 这 些 含义 上 的 差异 外 ， 它 们 都 关注 同一 个 问题 :“ 未 来 我 们 想 
到 哪里 去 ?” 对 于 大 部 分 企业 来 说 ， 战 略 规划 中 提供 了 这 个 问题 的 答案 。 你 可 以 将 战略 规划 想 
象 成 一 幅 地 图 ， 这 幅 地 图 详细 描述 了 一 个 企业 从 它 现在 的 状态 到 实现 未 来 愿景 要 采取 的 一 系 
列 行动 。 

通常 情况 下 ， 战 略 规划 是 从 企业 的 上 层 开 始 ， 并 且 着 眼 于 整个 企业 。 由 此 ， 创 建 战略 规划 是 
为 了 企业 的 业务 单位 或 职能 部 门 。 如 果 不 考虑 规划 是 为 企业 的 哪 一 个 层次 制定 的 一 一 企业 全 局 、 
业务 单位 或 是 职能 部 门 ， 战 略 规划 接 下 来 的 工作 都 是 很 常见 的 过 程 。 

1. 进行 现状 分 析 现状 分 析 回 顾 了 企业 目前 的 状况 ，(“ 我 们 在 哪儿 ?”) 为 财务 绩效 和 运营 
绩效 建立 底线 和 关键 趋势 。 E 

2. 决定 规划 周期 ”传统 上 ,企业 制订 计划 都 是 以 年 为 单位 ， 规 划 周 期 为 3 ~5 年 。 规 划 时 间 
很 大 程度 上 取决 于 市 场 的 可 变性 及 可 预测 性 、 产 品 的 生命 周期 、 企 业 的 规模 、 技 术 革 新 率 和 行业 
的 资本 密集 程度 。 市 场 环境 越 易 变化 ， 则 越 不 容易 预测 ; 生命 周期 越 短 ， 企 业 规模 就 越 小 ; 技术 
更 新 越 快 ， 资 本 越 不 密集 ， 规 划 的 周期 越 短 。 

3. 企业 环境 分 析 ”环境 分 析 是 评估 企业 的 优势 、 劣 势 、 机 会 及 威胁 。 它 用 来 定义 和 区 分 对 
企业 产生 潜在 影响 或 直接 影响 的 关键 顾客 、 市 场 、 竞 争 者 、 政 府 、 人 口 、 利 益 相 关 者 和 行业 等 
因素 。 

4. 识别 关键 成 功 因 素 ”关键 成 功 因素 (Critical Success Factor, CSF) 描述 企业 如 果 想 在 自 
己 的 细 分 市 场 取 得 成 功 必 须要 擅长 的 东西 。 对 制造 业 企业 而 言 ， 关 键 成 功 因 素 的 例子 是 产品 质 
量 和 产品 创新 。 对 于 提供 低 成 本 的 企业 ， 如 沃尔玛 ， 分 销 能 力 则 是 关键 成 功 因 素 。 

5. 完成 差距 分 析 像 环境 分 析 一 样 ， 差 距 分 析 用 于 定义 和 排序 企业 内 部 在 流程 、 结 构 、 技 
术 及 应 用 方面 的 优势 和 劣势 。 这 些 差 距 反 映 了 决策 实际 需求 什么 和 企业 真正 能 够 提供 什么 。 

6. 创建 战略 愿景 ”企业 的 战略 愿景 提供 企业 在 未 来 应 该 发 展 成 什么 模样 的 景象 一 一 产品 和 
市 场 的 转变 。 通 常 ， 愿 景 表达 了 企业 目前 的 状况 和 期 望 达到 的 状况 。 

7. 提出 商业 决策 这 一 步 挑战 在 于 制定 的 计划 基于 前 几 步 得 到 的 数据 和 信息 ， 并 且 与 企业 
的 愿景 一 致 。 常 识 告诉 我 们 ， 制 定 战略 应 该 利用 企业 的 优势 ， 利 用 机 会 ， 规 避 劣 势 ， 应 对 威胁 。 
企业 需要 确定 战略 在 企业 内 部 的 一 致 性 ， 制 定 的 战略 与 企业 文化 相 吻合 ， 企 业 所 拥有 的 资源 和 
资金 能 保证 这 一 战略 实现 。 

8. 确定 战略 目的 和 目标 ”不 能 为 企业 的 财务 和 运营 计划 的 制订 过 程 明 确 指引 方向 的 战略 规 
划 是 不 完整 的 。 在 运营 或 财务 计划 制定 之 前 ， 必 须 先 制定 战略 目标 并 且 将 其 精炼 并 转换 为 明确 
的 目标 或 目的 。 战 略 目的 是 一 种 规范 企业 目标 的 大 概 说 明 或 宏观 的 行动 步 又。 在 企业 将 战略 目 
标 转换 为 财务 目标 或 运营 目标 之 前 ， 应 该 先 将 其 转换 为 明确 的 目标 或 目的 。 战 略 目标 定义 了 在 
一 段 确定 的 时 间 内 的 一 定量 的 目标 。 例 如 ， 企 业 想 要 提高 其 资产 回报 率 (Returm On Asset, 
ROA) 或 者 提高 综合 收益 率 ， 在 企业 细 化 运营 计划 之 前 需要 将 这 些 目标 定量 化 〈 例 如 ， 将 资产 
回报 率 从 10% 提高 到 15% ， 或 者 将 利润 率 从 5% 提高 到 7% ) 。 战 略 目 的 和 目标 指导 企业 的 实际 
运营 活动 ， 并 且 能 够 根据 整体 目标 追踪 进展 。 
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3.2.2 战略 差距 


制定 长 远 战 略 是 一 回 事 ， 执 行 这 一 战略 又 是 另 一 回 事 。 在 过 去 的 几 十 年 里 ， 大 量 的 研究 表 
明 ， 许 多 企业 战略 规划 和 执行 这 些 战 略 规划 之 间 的 差距 很 突出 。Monitor Group (Kaplan and Nor- 
ton, 2008) 和 Conference Board (2008) 指出 ， 最 近 对 高 级 主管 的 一 项 调查 表明 ， 准 确 描 述 “ 战 
略 执行 ”成 为 企业 最 应 该 优先 考虑 的 事 。 类 似 地 ， 根 据 Palladium Group (Norton, 2007) 的 调查 
数据 表明 ，90% 的 企业 不 能 成 功 地 执行 它们 的 战略 。 尽 管 许多 研究 将 “战略 差距 ”的 原因 归 为 
以 下 4 种 之 一 ,但 是 造成 这 一 现象 的 原因 却 是 多 样 的 。 

1. 交流 ”在 很 多 企业 中 ， 只 有 很 少 一 部 分 员工 理解 企业 的 战略 。Palladium Group (Norton, 
2007) 将 这 一 数据 确定 为 10% 。 一 方面 ， 在 员工 们 从 来 没有 见 过 或 者 听 说 过 战略 规划 时 就 做 出 
决定 ， 并 按照 战略 规划 合作 是 困难 的 或 不 可 能 的 。 另 一 方面 ， 即 使 规划 得 到 了 沟通 ， 战 略 的 清晰 
度 通常 也 不 高 ， 因 此 没有 人 能 够 十 分 确定 他 们 的 行动 是 按照 战略 还 是 已 经 偏离 了 战略 。 

2. 确定 报酬 与 激励 ”将 报酬 与 绩效 结合 在 一 起 ， 对 于 成 功 执行 战略 十 分 重要 。 然 而 ， 激 励 
计划 通常 与 短期 财务 成 果 相 结合 ， 而 不 是 与 企业 的 战略 规划 相 结合 ， 甚 至 没有 与 企业 运营 计划 
中 明确 的 战略 激励 相 结 合 。 短 期 计划 的 最 大 主导 作用 也 比 不 上 理性 决策 。Palladium Group ( Nor- 
ton, 2007) 指出 70% 的 企业 不 能 将 它们 的 战略 与 中 级 管理 层 的 激励 机 制 相 结合 。 

3. 焦点 “管理 层 通常 将 大 把 的 时 间 花 在 外 围 问题 上 而 不 是 集中 于 核心 问题 。 时 间 通 常 被 花 
在 对 一 系列 预算 问题 的 争论 上 ， 而 对 企业 的 战略 、 财 务 计划 与 战略 的 联系 或 者 隐 含 在 这 些 联系 
中 的 设想 并 不 关心 。Palladium Group (Norton, 2007) 指出 在 许多 企业 中 超过 85% 的 管理 者 每 个 
月 讨论 战略 的 时 间 少 于 1 小 时 。 

4. 资源 除非 战略 性 的 提案 有 足够 的 资金 和 资源 ， 否 则 失败 是 显而易见 的 。Palladium Group 
(Norton, 2007) 发 现 ， 低 于 40% 的 企业 的 战略 规划 与 企业 预算 紧密 联系 在 一 起 。 


3. 2 节 复 习题 


1. 企业 为 什么 需要 一 个 成 熟 的 战略 规划 ? 
2. 制定 战略 规划 的 基本 任务 是 什么 ? 
3. 制定 战略 规划 和 实际 执行 战略 规划 之 间 的 差距 在 哪儿 ? 


3.3 计划 : 我 们 如 何 达 到 那里 

当 运 营 管理 者 知道 了 是 什么 〈 也 就 是 企业 的 目的 和 目标 ) ， 那 么 下 一 步 是 提出 如 何 做 〈 也 就 
是 具体 的 运营 和 财务 计划 ) 。 运 营 和 财务 计划 回答 了 两 个 问题 : 采取 什么 样 的 战术 和 举措 才能 达 
到 战略 规划 所 确定 的 绩效 目标 ? 执行 这 些 策略 所 期 望 的 财务 结果 是 什么 ? 


3. 3.1 运营 计划 


运营 计划 将 企业 的 战略 目的 和 目标 转化 成 一 系列 成 熟 的 战术 和 举措 、 对 资源 需求 和 对 未 来 
一 段 时 间 〈 通 常 为 一 年 ， 但 并 不 总 是 一 年 ) 期 望 的 结果 。 实 质 上 ,运营 计划 就 像 用 于 保证 企业 
的 战略 能 够 实现 的 项 目 计 划一 样 。 大 部 分 运营 计划 都 由 一 组 战术 和 举措 组 成 。 运 营 计 划 的 关键 
是 要 一 体 化 。 战 略 驱 动 战 术 ， 战 术 驱 动 结果 。 基 本 上 来 说 ,运营 计划 中 定义 的 战术 和 举措 需要 直 
接 与 战略 规划 中 的 关键 目的 和 目标 相 结 合 。 如 果 某 个 战术 与 一 个 或 更 多 的 战略 目标 没有 关联 ， 
那么 管理 层 应 该 质疑 这 一 战术 及 与 其 相关 的 举措 是 否 真 的 有 必要 存在 。3. 8 节 将 讨论 的 BPM 方 
法 就 是 用 来 保证 这 些 联系 存在 。 

(Axson, 2007) 文献 指出 ,运营 计划 既 可 以 以 战术 为 中 心 ， 也 可 以 以 预算 为 中 心 。 在 以 战术 
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为 中 心 的 计划 中 ， 战 术 的 制定 要 符合 战略 规划 中 的 目的 和 目标 。 相 反 地 ， 在 以 预算 为 中 心 的 计划 
中 ， 财 务 计划 或 预算 应 与 目标 财务 价值 一 致 。 最 佳 实践 企业 使 用 以 战术 为 中 心 的 运营 计划 。 这 意 
味 着 他 们 通过 定义 可 变 的 战术 和 举措 ， 制 定 运营 计划 步骤 以 达到 特定 的 目标 。 例 如 ， 如 果 一 个 商 
业 目 标 是 利润 率 增长 10% (也 就 是 说 ， 收 益 和 花费 分 别 除 以 收益 的 比率 之 间 的 差异 ) ， 那 么 企业 
首先 应 该 决定 它 提 高 这 一 比率 是 通过 增加 收益 、 减 少 花费 或 者 是 两 者 都 应 用 。 如 果 将 以 税收 为 
重点 ， 那 么 这 个 问题 就 变 为 是 进入 新 的 市 场 或 增加 已 有 市 场 的 销售 额 ， 提 高 现 有 产品 的 产量 还 
是 引入 产品 ,或 者 两 者 同时 应 用 。 备 用 场景 和 举措 必须 权衡 总 体 的 风险 、 资 源 要 求 和 财务 能 力 。 


3.3.2 ”财务 计划 和 预算 


在 大 多 数 企业 中 ， 资 源 趋 向 于 匮乏 。 如 果 资 源 不 匮乏 ， 那 么 企业 完全 可 以 在 抓 住 机 会 、 解 决 
问题 或 者 击败 对 手 方面 投入 大 量 的 人 力 和 财力 。 由 于 资源 的 缺乏 ， 企 业 需 要 将 人 力 和 财力 投入 
到 它 的 战略 和 与 之 相关 的 战术 上 。 企 业 的 战略 目标 和 关键 度量 应 该 在 如 何 分 配 企业 的 有 形 和 无 
形 资 产 中 从 上 到 下 起 到 驱动 作用 。 很 明显 可 持续 运营 需要 支持 ， 应 该 将 关键 的 资源 分 配给 最 重 
要 的 战略 规划 。 大 多 数 企业 用 它们 的 预算 和 资金 来 分 配 资源 。 为 了 战略 的 成 功 ， 这 两 种 方法 都 需 
要 与 企业 的 战略 目标 和 战术 仔细 地 匹配 。 

企业 实现 这 种 匹配 的 最 好 做 法 是 基于 运营 计划 制定 财务 计划 ， 或 者 更 直接 一 些 ， 就 是 按 特 
定 的 战术 和 举措 安排 分 配 资源 。 例 如 ， 如 果 其 中 的 一 项 战术 是 开发 新 的 销售 渠道 ， 那 么 预算 的 收 
益 和 费用 需要 分 配 到 渠道 ， 而 不 仅仅 是 将 费用 分 配给 特定 的 职能 部 门 ， 例 如 市 场 部 、 研 发 部 。 没 
有 这 样 典 型 的 战术 资源 计划 ， 就 不 能 评价 战术 的 成 功 与 否 ， 进 而 就 不 能 评价 战略 的 成 功 与 否 。 这 
种 联系 能 够 帮助 企业 避免 “随意 ”削减 与 战略 相关 的 预算 。 将 特定 的 预算 限额 项 目 与 特定 的 战 
术 和 举措 联系 起 来 ， 以 战术 为 基础 的 预算 就 很 好 建立 和 明确 了 。 

财务 计划 和 预算 过 程 的 逻辑 结构 通常 从 那些 产生 某 些 形式 的 收入 或 收益 的 战术 开始 。 在 销 
售 产品 或 服务 的 企业 中 ,产生 利润 的 能 力 是 基于 直接 生产 产品 的 能 力 和 提供 服务 的 能 力 ， 或 者 
被 授权 销售 产品 或 提供 服务 的 能 力 。 在 制定 了 预期 收入 之 后 ， 就 能 够 确定 相应 的 分 发 费用 。 通 常 
需要 来 自 多 个 部 门 或 策略 的 输入 信息 。 这 意味 着 流程 必须 相互 配合 ， 明 确 并 理解 职能 之 间 的 依 
赖 关 系 。 除 了 这 些 合作 输入 信息 ， 组 织 需要 增加 各 种 经 常 费 用 ， 以 及 需要 的 资本 费用 。 一 旦 这 些 
信息 巩固 ， 就 可 以 显示 按 计 划 实 施 战略 所 需 的 费用 、 现 金 和 资金 需求 。 


3. 3 节 复 习题 


- 运营 计划 的 目的 是 什么 ? 
. 什么 是 以 战术 为 中 心 的 计划 ? 什么 是 以 预算 为 中 心 的 计划 ? 
. 财务 计划 最 重要 的 目的 是 什么 ? 


3.4 监控 : 我 们 做 得 怎么 样 

在 实施 运营 计划 和 财务 计划 的 过 程 中 ， 监 控 企 业 的 绩效 是 必要 的 。 监 控 绩 效 的 综合 框架 应 
该 包括 以 下 两 点 : 监控 什么 和 怎样 监控 。 因 为 方方面面 都 要 兼顾 是 不 可 能 的 ， 所 以 组 织 需要 集中 
监控 特定 的 问题 。 在 制定 了 关注 的 指标 和 措施 之 后 ， 企 业 需 要 创建 监控 这 些 因 素 和 进行 有 效 反 
应 的 战略 。 

3.7 节 和 3. 8 节 将 详细 讨论 在 BPM 系统 中 ， 如 何 确 定 评 价 的 内 容 。 我 们 暂时 只 需 注 意 “ 评 
价 什么 ”， 通常 由 CSF 确定 ， 并 且 企业 的 目的 与 目标 是 在 战略 规划 的 制定 过 程 中 确立 的 。 举 例 来 
说 ， 如 果 一 家 乐器 生产 商 的 某 个 战略 规划 ， 是 在 未 来 的 3 年 中 每 年 都 将 现 有 生产 线 的 总 利润 率 提 
高 5% ,那么 企业 就 需要 对 利润 率 进 行 全 年 的 监控 ,用 以 观察 能 否 达 到 每 年 5% 的 增长 率 。 同 样 ， 
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如 果 这 家 企业 计划 在 未 来 的 2 年 里 ， 每 个 季度 都 引进 一 种 新 产品 ， 那 么 企业 需要 在 指定 的 时 间 期 
限 内 跟踪 新 产品 的 引进 。 


3.4.1 诊断 控制 系统 
很 多 企业 都 在 应 用 一 种 被 称 为 诊断 控制 系统 的 工具 监控 企业 的 绩效 ， 纠 正 目前 绩效 水 平 的 





偏差 。 甚 至 普遍 存在 于 那些 没有 正式 BPM 过 程 或 系统 的 企 Iii 
业 。 诊 断 控 制 系统 是 一 种 基于 控制 论 的 系统 ， 这 表明 它 包 
括 输入 ， 将 输入 转换 为 输出 的 过 程 ， 用 于 对 比 输出 的 标准 Za, 


或 标杆 ， 允 许 输出 结果 和 标准 之 间 差 异 信息 进 行 沟通 和 参 
照 的 反馈 通道 。 事 实 上 ， 任 何 一 种 信息 系统 如 果 满 足以 下 
几 点 都 可 以 用 做 诊断 控制 系统 : (1) 事先 建立 目标 ; (2) 
测量 输出 ; (G) 计算 绝对 或 相对 的 绩效 偏差 ; 〈4) 将 偏差 
信息 反馈 ， 用 于 调整 输入 或 过 程 ， 使 得 绩效 与 现 有 目标 和 
标准 相 一 致 。 图 3-2 阐述 了 诊断 控制 系统 的 关键 因素 。 平 衡 











记分 卡 、 绩 效 仪表 盘 、 项 目 监控 系统 、 人 力 资源 系统 和 财 图 3-2 诊断 控制 系统 
务 报告 系统 都 是 可 以 用 于 监控 的 系统 的 例子 。 Eee 
a ‘ontrol Systems for Implementing 
有 效 的 诊断 控制 系 统 支 持 异 常 管 理 o 并 不 是 对 内 部 过 Strategy , Prentice Hall, Upper Saddle 
程 和 目标 价值 持续 地 监控 ， 而 是 将 实际 结果 与 计划 结果 进 River,NJ,2002,P. 207. 


行 比较 ， 管 理 者 通常 还 会 收 到 异常 报告 。 管 理 者 通常 不 会 花费 很 多 精力 在 与 预期 一 致 的 评价 上 。 
但 是 ， 如 果 发 现 了 巨大 的 偏差 ， 那么 管理 者 就 需要 投入 时 间 和 精力 去 调查 出 现 偏差 的 原因 并 着 
手 实施 恰当 的 补救 办 法 。 


3. 4.2 ”差异 分 析 的 困难 


在 很 多 企业 中 ， 当 职能 小 组 或 者 部 门 不 能 达到 目标 时 ， 绝 大 多 数 的 差异 分 析 集 中 于 消极 差 
异 上 。 很 少 集中 于 例如 发 现 潜在 机 会 一 类 的 积极 差异 上 ， 
而 且 很 少 做 差异 模式 下 的 假设 分 析 。 请 考虑 图 3-3 所 描述 
的 两 条 路 径 。 在 这 张 图 中 , 从 A 到 B 的 虚线 表示 某 一 特定 
时 间 的 计划 或 目标 结果 。 通 过 识别 与 计划 之 间 存 在 的 微小 
差异 ， 我 们 可 能 希望 实际 结果 与 目标 结果 之 间 有 轻微 的 偏 
差 。 当 偏差 超过 预期 的 假设 时 ， 通 常 认为 是 运营 发 生 了 问 . l 
题 ， 需 要 进行 纠正 。 这 时 候 ， 管 理 者 通常 为 了 使 计划 重 回 ”图 3-3 运作 的 差异 还 是 成 略 问题 
正轨 ， 通 常 命令 员工 不 惜 一 切 代价 。 如 果 没 有 达到 预期 收益 ， 那 么 员工 们 就 会 受到 责备 进而 更 加 
努力 的 工作 。 如 果 费 用 超过 计划 ， 那 么 员工 们 就 会 被 告知 停止 支出 。 

然而 ， 如 果 我 们 制定 的 战略 假设 出 现 错误 一 一 而 不 是 执行 出 现 错 误 ， 怎 么 办 ?如 果 企 业 需 要 
将 它 的 战略 方向 调整 到 C 点 而 不 是 继续 执行 原来 的 计划 ， 怎 么 办 ? 就 像 应 用 案例 3. 1 中 所 描述 的 
那样 ， 按 照 错误 的 前 提 假 设 行动 其 结果 是 灾难 性 的 。 做 出 此 类 决定 的 唯一 办 法 就 是 对 计划 的 绩 
效 实行 更 密切 的 监控 。 不 论 企业 应 用 哪 一 种 诊断 分 析 系统 ， 都 需要 有 对 初步 假设 、 因 果 关 系 和 预 
定 策略 的 整体 有 效 性 进行 追踪 。 例 如 ， 试 想 企业 要 实行 以 推出 新 产品 为 主 的 成 长 战略 。 这 类 战略 
通常 要 依赖 市 场 需求 或 零 部 件 供应 商 的 生产 能 力 等 方面 的 假设 。 在 战略 开展 的 同时 ， 管 理 者 不 
仅 要 监控 与 新 产品 有 关 的 收益 和 费用 ， 并 且 要 关注 市 场 需求 ， 或 者 零 部 件 的 可 用 性 ， 或 者 其 他 关 
键 的 假设 与 预期 之 间 的 偏差。 
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应 用 案例 3. 1 ”发 现 驱 向 型 计划 : 咖啡 之 战 


在 过 去 的 几 年 中 ， 星 巴克 (Starbucks), #46 (Dunkin’ Donuts) (dunkindonuts. com) 
及 麦当劳 (McDonald) 都 卷 入 了 占领 精 选 咖啡 市 场 的 战争 中 。 对 于 星巴克 和 唐 恩 都 乐 ， 这 场 
战争 的 主要 部 分 是 国 绕 着 增加 店面 数量 展开 的 。 但 是 麦当劳 并 没有 这 么 做 ， 因 为 它 早 就 已 经 
将 店面 开 遍 全 世界 了 。 

2000 年 以 来 ， 星 巴克 就 以 “非凡 的 速度 ” 增 开 新 店 。 它 的 店面 数目 从 2000 年 不 到 4 000 
家 迅速 增长 为 2007 年 的 15 000 家 左右 。 这 一 行动 的 假设 前 提 是 ， 人 们 对 精 选 咖啡 的 需求 还 没 
有 完全 释放 出 来 ， 如 果 不 开 更 多 的 店 满足 人 们 的 需求 ， 那 么 它 的 竞争 对 手 就 会 捷足先登 。 其 
中 竞争 者 之 一 就 是 唐 恩 都 乐 。 在 2007 年 ， 唐 思 都 乐 决 定 在 数量 和 地 域 履 盖 上 拓展 其 特许 经 营 
权 。 在 2007 年 之 前 ， 唐 恩 都 乐 仅 在 东北 部 就 有 5 000 家 特许 经 营 店 (Weier，2007) 。 它 制定 
的 新 目标 是 在 全 球 范围 内 开设 15 000 家 特许 经 营 店 。 唐 思 都 乐 与 星巴克 不 同 的 是 ， 它 没有 自 
己 的 店面 。 相 反 ， 它 依赖 于 个 人 申请 特许 经 营 权 ， 通 过 申请 审批 后 支付 特许 经 营 权 使 用 费 ， 
特许 经 营 权 使 用 费 从 日 常 收 入 中 扣除 。 

唐 恩 都 乐 为 了 实现 特许 经 营 的 目标 ， 引 进 了 新 的 仪表 盘 应 用 程序 (参看 3.10 节 )， 用 于 
帮助 其 查看 哪里 的 生意 不 好 做 了 ， 哪 些 交 易 之 间 太 接近 了 ， 关 闭 一 家 特许 经 营 交易 的 平均 周 
期 是 多 长 ， 交 易 的 平均 规模 有 多 大 (Weier，2007)。 假 设 唐 恩 都 乐 发 现 平均 周期 比 预 计 的 要 
长 或 者 生意 不 好 做 了 ， 那 么 应 该 采取 什么 样 的 应 对 措施 ? 

按照 唐 恩 都 乐 在 战略 中 的 沉没 成 本 ， 首 要 的 措施 当然 是 考虑 增长 周期 或 者 确定 为 什么 生 
意 不 好 做 。 采 取 的 最 后 一 项 行动 才 是 对 整个 在 全 球 范围 内 增设 新 店 的 战略 和 人 们 被 抑制 的 需 
求 这 一 基本 假设 进行 质疑 。 事 实 上 ， 这 就 是 星巴克 的 做 法 。 

即使 面临 店面 销售 额 大 幅 下 降 的 趋势 ， 这 也 是 评价 开设 至 少 一 年 的 店面 销售 额 增 长 速度 
的 指标 ， 星 巴克 仍然 持续 以 飞快 的 速度 开设 新 店 (Wailgum，2008) 。 星 巴克 对 这 一 问题 的 第 
一 反应 是 如 何 解决 销售 额 下 降 。 在 2007 年 ， 它 宣布 了 一 系列 针对 这 一 问题 的 战略 举措 。 它 推 
出 新 的 混合 咖啡 ， 用 新 的 设备 替换 已 有 的 咖啡 机 ， 推 出 回报 顾客 工程 及 开设 一 个 新 网 站 。 直 
到 2008 年 1 月， 星巴克 才 意识 到 需要 修改 它 的 扩张 战略 ， 就 是 将 新 开 的 店 与 现 有 的 店 合并 。 
相应 地 ， 星 巴克 缩减 其 扩张 计划 ， 减少 其 每 年 新 开店 数目 、 取 消 它 开设 40 000 家 店 的 长 期 目 
标 ， 并 着 手 关 闭 在 美国 不 盈利 的 店面 。 

发 现 驱 向 型 计划 

当 星 巴克 和 唐 因 都 乐 这 样 的 大 公司 在 着 手 企 业 级 的 扩张 战略 时 ， 很 大 一 部 分 成 就 取决 于 
企业 中 的 每 个 人 是 否 都 在 努力 。 如 果 步 入 歧途 ， 就 会 出 现 各 种 偏差 ,不 惜 任何 代价 为 了 坚持 
执行 这 一 计划 直接 或 间接 向 员工 施加 压力 。 特 别 是 在 竞争 激烈 、 完 全 公开 的 环境 中 ,企业 都 
有 这 些 倾 向 : 

e 确认 偏差 ”导致 只 接受 那些 对 已 有 的 假设 支持 的 信息 ， 而 抵制 对 其 质疑 的 信息 。 

e 近期 偏差 ”由 于 对 最 初 关键 性 假设 的 淡忘 ， 造 成 通过 实施 经 验 来 解释 或 理解 上 的 

困难 。 

。 赢家 偏差 ”在 竞争 中 过 分 看 重 输赢 ， 即 使 付出 的 代价 超出 了 得 到 的 利益 。 

e 社会 或 政治 偏差 过 分 坚持 “公共 ”计划 ,而 不 接受 无 知 或 错误 。 

部 分 问题 是 星巴克 和 唐 恩 都 乐 所 采用 的 那 类 常规 计划 过 程 并 不 能 在 研究 和 分 析 基 础 假设 
方面 提供 什么 。 为 了 改变 常规 的 计划 制定 过 程 ，McGrath and MacMillan (2009) 年 提出 ， 公 司 
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应 该 使 用 发 现 驱动 型 计划 ( Discovery- Driven Planning，DDP) 。 对 于 大 多 数 成 长 型 战略 来 说 ， 
结果 是 很 难 确定 和 预料 的 。 它 们 同样 也 要 依靠 在 计划 执行 过 程 中 会 发 生 改 变 的 种 种 重要 假 
设 。 随 着 战略 的 进行 ， 关 键 问 题 是 降低 “假设 -知识 ”的 比例 (即将 假设 都 变 成 事实 ) 。 这 
就 是 发 现 驱动 型 计划 的 核心 所 在 。 发 现 驱动 型 计划 提供 了 系统 的 方法 ， 能 够 发 现 那些 不 被 关 
注 和 没有 引起 争论 但 又 存在 问题 的 假设 。 之 所 以 称 之 为 发 现 驱 动 型 是 因为 在 计划 的 执行 过 程 
中 ,会 涌现 新 的 数据 和 发 现 新 的 可 能 性 。 

DDP 包括 一 系列 的 步骤 。 其 中 一 些 与 常见 的 计划 制定 过 程 相同 〈( 例 如 ， 创 建成 长 型 战 
略 ) ， 另 一 些 则 十 分 不 同 。 在 这 里 的 讨论 中 ，DDP 中 存在 3 个 与 常见 计划 过 程 不 同 的 步骤 : 

1. 逆向 财务 ”第 一 步 是 用 一 组 财务 单据 模拟 计划 中 所 有 种 种 假设 如 何 相 互 影响 ， 随 着 获 
取信 息 的 增加 ， 确 定 计划 要 得 到 更 多 的 支持 还 是 存在 风险 。 

2. 支出 规范 ”第 二 步 是 安排 产品 、 销 售 、 服 务 所 需要 的 全 部 活动 ， 并 将 这 些 产 品 或 服务 
提供 给 顾客 。 这 些 活动 就 代表 了 可 列 支 的 费用 。 

3. 假设 清单 ”业务 开展 需要 的 所 有 活动 都 依赖 于 关键 性 假设 。 在 这 一 步 中 ， 列 出 了 与 第 
2 步 中 支出 项 目 相关 的 各 项 假设 的 书面 清单 。 

假如 你 要 开 一 家 高 级 法 式 餐 厅 ， 你 的 目标 是 在 经 营 的 第 一 年 就 有 所 突破 (获得 200 万 销 
ER) 。 这 里 存在 一 个 问题 , “这 是 不 是 真实 的 销售 数据 ?” 更 确切 地 说 , “如 果 想 要 得 到 200 
万 的 销售 额 ， 应 该 采取 什么 样 的 行动 ? 这 些 行 动 有 意义 吗 ?” 

回答 这 些 问 题 的 一 个 方法 就 是 考虑 你 的 餐厅 一 年 接待 的 顾客 数量 ， 以 及 他 们 在 餐厅 进餐 
时 的 平均 消费 金额 是 多 少 。 按 照 每 个 人 的 平均 消费 ,就 可 以 猜测 出 平均 每 餐 的 规模 (例如 小 
菜 、 主 菜 等 ) 及 这 些 菜 的 平均 成 本 ， 或 者 你 可 以 查看 整个 餐厅 的 账单 。 比 如 在 你 生活 区 域 
内 ， 其 他 高 端 法 式 餐 厅 每 餐 的 平均 消费 为 每 人 120 ~ 150 美元 。 有 了 这 些 数据 ， 你 就 知道 每 年 
需要 接待 13 333 ~ 16 667 位 顾客 ， 或 者 每 晚 接待 44 ~ 56 位 顾客 。 问 题 是 : 这 些 数据 有 意义 
吗 ? 是 不 是 太 乐 观 了 ? 如 果 是 ， 你 就 需要 调整 目标 。 不 论 答案 是 什么 ， 你 仍然 需要 安排 这 些 
行动 和 为 了 实现 这 一 目标 的 相关 费用 。 

一 旦 推出 了 成 长 战略 ，DDP 就 帮助 识别 检查 点 和 假设 清单 ， 使 企业 不 仅 能 够 估计 现在 的 
绩效 ， 并 且 能 够 判断 以 前 和 现在 计划 所 依靠 的 假设 的 持续 有 效 性 。 如 果 星 巴克 使 用 了 DDP, 
那么 它 也 许 能 更 早 地 发 现 其 成 长 战略 的 缺陷 。 

来 源 : Compiled from R. McGrath and I. MacMillan, Discovery- Driven Growth , Cambridge , MA, Harvard University Press, 
2009 ;T. Wailgum, “ How IT Systems Can Help Starbucks Fix Itself,” CIO , January 25 , 2008, cio. com/article/ 
176003/How_IT_Systems_Can_Help_Starbucks_Fix_lItself (accessed January 2010); M. Weier, “ Dunkin’ 
Donuts Uses Business Intelligence in War Against Starbucks,” information Week, April 16, 2007. 




















3. 4 节 复 习题 
1. 监控 系统 回答 了 哪些 关键 问题 ? 
2. 构成 诊断 控制 系统 的 关键 因素 是 什么 ? 
3. 什么 是 意外 管理 ? 
4. 从 管理 的 观点 看 ， 差 异 分 析 的 主要 缺陷 是 什么 ? 


3.5 行动 和 调整 : 我 们 需要 做 什么 不 同 的 吗 
不 论 企业 想 发 展 它 的 业务 还 是 仅仅 想 改善 其 运作 ， 事 实 上 ， 所 有 的 战略 都 基于 新 的 计划 一 一 
设计 新 产品 、 进 入 新 市 场 、 获 取 新 客户 或 业务 ， 或 者 使 业务 流程 合理 化 。 大 多 数 企 业 在 实施 它们 
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的 新 计划 时 过 于 乐观 而 不 够 客观 ， 忽 略 了 事实 上 大 多 数 新 项 目 或 企业 都 是 以 失败 告终 (Slywotky 
and Weber，2007) 。 失 败 的 概率 有 多 大 ? 很 明显 ， 这 与 项 目 类 型 有 关 。 好 莱 坞 电影 失败 的 概率 为 
60% 。 与 收购 兼并 失败 的 概率 相同 。IT 项 目的 失败 率 为 70% 。 对 于 新 的 食品 ， 失 败 率 为 80% 。 
而 对 于 新 的 药品 ， 失 败 率 则 更 高 ， 达 到 90% 左右 。 总 体 来 说 ， 对 于 大 多 数 新 项 目 或 者 冒险 的 失 
败 率 在 60% ~90% 之 间 。 

一 个 项 目 会 以 多 种 不 同方 式 失 败 ， 比 如 ， 考 虑 的 选项 或 场景 太 少 ， 不 能 成 功 地 预测 竞争 者 的 





行动 ， 忽 略 经 济 或 社会 环境 的 变化 ， 错 误 地 预 
测 需求 ， 低 估 要 取得 成 功 所 需要 的 投资 等 ， 这 
里 只 是 列举 了 一 些 可 能 性 。 这 就 是 为 什么 企业 
要 持续 监控 结果 ， 分 析 发 生 了 什么 ， 确 定 为 什 
么 发 生 ， 并 适时 调整 它 的 行动 的 重要 原因 。 

回顾 一 下 在 开篇 场景 中 ，Harrah 公司 的 闭 
环 营 销 系统 。 图 3-4 描述 了 这 一 系统 。 就 像 图 
3-4 所 示 ， 这 个 过 程 分 为 5 个 步骤 : 

1. 这 一 循环 首先 确定 市 场 活动 或 测试 步 又 
量化 指标 ,方式 是 对 比 实验 组 与 实验 ， 对 照 组 





a) 定义 
活动 目标 
和 测试 结果 









S) 认识 和 完善 
活动 及 方法 





(4) 评估 




















客户 期 望 值 或 预期 结果 。 活动 效果 
2. 接 下 来 的 活动 或 实验 称 为 执行 。 这 些 活 
动用 于 提供 及 时 准确 的 报价 或 信息 。 被 选中 的 ix Huck Rane 
顾客 及 他 们 享受 的 待遇 与 他 们 在 Harrah 公司 先 来 源 : Watson, H. , and L Volonino. “Harrah's High Payoff 
前 的 经 历 有 关 ae a e ere 
3. 响应 这 个 活 动 的 每 位 顾客 都 要 被 追踪 。 Information for Strategic Advantage ; Technical Challen- 
不 仅 要 评价 响应 率 ， 而 且 对 其 他 一 些 指标 也 要 ges and Business Solutions Jan 2001. tery. uga. edu/~ 


hwatson/Harrahs. doc( accessed January 2010). 


进行 评价 ， 比 如 激励 产生 的 收益 ， 以 及 这 个 激 
励 有 没有 对 顾客 行为 产生 积极 影响 〈 例 如 ， 光 顾 频率 的 增加 ， 光 顾 收益 的 增加 ， 或 者 在 各 种 赌 
博 场所 间 穿 梭 ) 。 

4. 通过 这 一 活动 产生 的 净值 及 其 相对 其 他 活动 的 盈利 能 力 评价 活动 是 否 有 效 。 

5. Harrah 公司 认识 到 激励 对 顾客 行为 的 影响 最 明显 ， 并 导致 了 最 佳 盘 利 能 力 的 提升 。 这 些 知 
识 也 被 继续 用 于 完善 它 的 营销 方法 。 

在 过 去 的 几 年 中 ，Harrah 公司 实际 上 进行 了 成 千 上 万 次 这 样 的 测试 。 尽 管 这 5 个 步骤 都 很 重 
要 ,但 事实 上 Harah 公司 为 了 得 到 最 理想 的 结果 而 不 断 地 分 析 和 调整 其 战略 ， 以 期 在 竞争 中 取 
得 优势 。 

像 Harrah 公司 一 样 ， 很 多 企业 花费 大 量 的 时 间 和 金钱 制订 计划 、 收 集 数据 和 生成 管理 报告 。 
然而 ， 大 部 分 企业 在 绩效 管理 实践 方面 缺乏 竞争 力 。Saxon Group 的 研究 结果 表明 (Axson, 
2007) : 

大 多 数 企业 设法 应 用 已 经 存在 了 半 个 多 世纪 的 管理 实践 去 管理 日 益 不 稳定 的 、 复 杂 的 流程 。 详 细 

的 5 年 战略 规划 、 静 态 年 度 预算 、 定 期 报告 、 缺 乏 灵 活性 的 财务 预测 等 ， 在 管理 变革 、 不 确定 及 复杂 

的 环境 中 ， 大 部 分 是 无 效 的 管理 工具 。 但 是 ， 很 多 企业 还 保留 着 这 种 管理 方式 。 

Saxon Group 咨询 公司 由 曾 在 Hackett Group 任职 的 David Axson 领导 ， 这 是 一 家 全 球 性 的 咨询 
公司 ， 在 最 佳 实践 顾问 、 标 杆 管理 、 变 革 咨 询 服务 方面 尤为 突出 。Axson 个 人 参与 实践 了 300 多 
起 标杆 管理 案例 。 从 2005 年 中 期 到 2006 年 中 期 ， 有 1 000 多 名 来 自 北美 、 欧 洲 和 亚洲 的 财务 主 
管 参与 了 Saxon Group 领导 的 调查 或 工作 会 议 ， 致 力 于 研究 当前 商务 管理 艺术 的 发 展 状态 。 所 有 
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主要 的 产业 集团 公司 都 参与 其 中 。 其 中 ，25% 的 企业 年 利润 少 于 500 FD, 55% 的 企业 年 利润 在 
500 万 ~50 亿 之 间 ， 另 外 的 20 多 年 利润 超过 50 亿 。 
以 下 为 Saxon Group 研究 小 组 的 调查 总 结 (Axson, 2007) : 
e 只 有 20% 的 企业 使 用 了 综合 的 绩效 管理 系统 ， 尽 管 5 年 前 还 不 到 10% 。 , 
。 少 于 30% 的 企业 实行 的 计划 清晰 地 反映 了 主要 项 目 和 举措 的 预期 结果 。 相 反 ， 它 们 关注 
于 出 现 错误 的 事情 。 每 个 项 目的 财务 计划 没有 显示 出 每 项 举措 预期 的 成 本 和 收益 ， 也 没 
有 确定 与 之 相关 的 总 投资 。 战 术 计 划 不 能 描述 实施 的 主要 举措 。 

。 报告 给 管理 层 的 信息 中 ， 超 过 75% 是 滞后 的 或 者 是 集中 于 内 部 数据 ; 只 有 少 于 25% 的 数 
据 具 有 预测 价值 或 者 是 关注 于 市 场 的 。 

。 普通 的 员工 在 所 谓 的 高 价值 分 析 和 决策 支持 任务 花费 的 时 间 少 于 20% 。 基 础 的 工作 ， 如 

收集 和 验证 高 价值 工作 所 需 数据 占据 了 普通 员工 的 大 部 分 时 间 。 

对 普通 公司 制订 计划 和 报告 行动 最 大 的 影响 是 ， 管 理 层 很 少 有 时 间 从 战略 角度 审视 结果 ， 
决定 应 该 采取 哪些 不 同 的 行动 及 如 何 改进 计划 。 事 实 上 企业 的 战略 、 战 术 和 期 望 的 结果 之 间 存 
在 的 关联 少 之 又 少 (Axson，2007 ) 。 

a 当 事 情 没有 严格 按照 计划 发 生 时 一 一 通常 是 这 样 的 ， 导 致 很 多 企业 危险 的 暴露 。 对 策 
略 和 目标 之 间 的 因果 关心 缺乏 清晰 的 理解 ， 你 就 无 法 确定 现在 的 行动 能 产生 预计 的 结果 。 最 佳 
的 实践 企业 不 一 定 有 更 好 的 预测 或 计划 ; 但 是 ， 它 们 能 够 快速 地 发 现 变 化 或 问题 ， 找 出 根本 原 
因 ， 采 取 纠 正 措施 。 


3. 5 节 复 习题 


1. 为 什么 60% ~ 80% 的 新 项 目 或 企业 都 以 失败 告终 ? 

2. 描述 Harrah 公司 闭环 销售 系统 模型 的 基本 步 又 。 

3. 根据 Saxon 研究 小 组 的 研究 结果 ， 普 通 公司 的 绩效 管理 实践 是 什么 ? 

4. 为 什么 很 少 有 企业 有 时 间 分 析 战 略 和 战术 结果 并 根据 这 些 分 析 采 取 纠 正 措施 ? 


3.6 绩效 评价 

BPM 基本 上 是 一 种 绩效 评价 系统 。 依 据 Simons (2002) 的 描述 ,绩效 评价 系统 : 

帮助 管理 者 通过 对 比 实际 结果 与 战略 目标 和 目的 ， 跟踪 商业 战略 的 实现 情况 。 绩 效 评价 系统 通常 

指 确定 商业 目标 ， 并 定期 反馈 进展 报告 的 系统 性 方法 。 

所 有 的 指标 都 是 相对 而 言 的 。 未 经 处 理 过 的 数据 几乎 没有 价值 。 如 果 告诉 你 ， 一 个 销售 人 员 
在 一 个 月 内 完成 了 他 应 该 完成 销售 额 的 50% ， 这 几乎 没有 任何 意义 。 现 在 ， 告 诉 你 同一 个 销售 
人 员 去 年 的 月 完成 率 仅 为 39% 。 很 明显 ， 这 个 趋势 是 好 的 。 如 果 你 还 被 告知 这 家 公司 的 全 体 销 
售 人 员 的 平均 完成 率 为 80% 又 如 何 ? 很 明显 ， 这 名 销售 人 员 需 要 加 快速 度 了 。 就 如 Simons 的 定 
义 ， 在 绩效 管理 中 ， 关 键 的 对 比 包括 战略 、 目 标 和 方向 。 


3.6.1 KPI 和 业务 指标 


“一 般 化 ”指标 与 “针对 战略 ”的 指标 之 间 有 很 大 差异 。 关 键 绩效 指标 (Key Performance In- 
dicator，KPI) 一 词 通常 表示 后 一 种 指标 。 关 键 绩效 指标 表示 要 达到 一 个 目标 所 需 的 战略 方向 和 
业绩 衡量 。Eckerson (2009) 指出 ，KPI 是 多 维 的 。 简 单 的 解释 就 是 ，KPI 具有 多 种 不 同 的 特点 ， 
包括 : 

。 战略 KPI 体现 了 战略 目标 。 
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。 目标 KPI 针对 特定 目标 进行 业绩 衡量 。 目 标 在 战略 、 计 划 或 进行 预算 时 确定 ， 可 以 采 
取 不 同 的 形式 (如 ， 完 成 任务 、 缩 减 目标 、 绝 对 目标 等 ) 。 

范围 目标 有 绩效 范围 (如 ,高 于 、 等 于 或 者 低 于 目标 ) 。 

编码 ”将 范围 在 软件 中 编码 ,方便 直观 地 显示 绩效 (如 ， 绿色、 黄色 、 红 色 等 )。 编 码 
可 以 使 用 百分比 或 者 更 复杂 的 规则 。 

时 间 范 围 制定 目标 时 ， 必 须 有 时 间 范 围 ， 即 明确 它们 在 什么 时 间 必 须 完成 。 时 间 范 转 
通常 被 细 分 为 更 短 的 时 间 间 隔 ， 用 来 提供 绩效 的 里 程 目标 。 

。 标准 ”用 基准 线 或 标准 来 评价 目标 。 前 些 年 的 成 果 通 常 作为 标准 ,但 是 也 可 以 使 用 任意 

的 数据 或 外 部 的 标准 。 

KPI 可 分 为 “结果 型 ”和 “驱动 型 ” 。 结 果 型 的 KPI (有 时 称 为 滞后 指标 ) 用 于 评价 过 去 活 
动 的 产 出 (如 收益 )。 通 常 它们 实质 上 就 是 财务 指标 ,但 也 并 不 总 是 。 驱 动 型 的 KPI (有 时 又 称 
为 先行 指标 或 价值 动因 ) 用 于 评价 对 KPI 结果 有 重要 影响 的 活动 (如 销售 机 会 ) 。 

在 某 些 情况 下 ， 驱 动 型 的 KPI 又 称 为 运营 KPI， 这 是 一 种 矛盾 修辞 法 (Hatch, 2008), KE 
数 企 业 都 有 多 种 多 样 的 运营 指标 。 就 如 它 的 名 字 显 示 的 ， 这 些 运营 指标 用 来 评价 企业 的 运营 活 
动 或 绩效 。 以 下 列举 的 例子 表现 了 这 些 运营 指标 覆盖 的 不 同 范围 : 

。 顾客 绩效 ”顾客 满意 度 、 解 决 问题 的 速度 和 准确 度 、 顾 客 维系 等 指标 。 

© 服务 绩效 ”服务 电话 的 解决 率 、 服 务 更 新 率 、 服 务 水 平 协议 、 交 付 效 率 和 回报 率 指标 。 

。 销售 运营 ”新 的 销售 渠道 账户 、 落 实 的 销售 会 议 、 将 咨询 转变 为 机 会 、 服 务 订单 的 平均 
完成 时 间 等 指标 。 
销售 计划 /预测 ”价格 与 购买 之 间 关 系 的 准确 性 、 采 购 订 单 的 履行 率 、 取 得 的 数量 、 预 测 
与 计划 的 比例 以 及 所 有 完成 的 合同 。 

运营 指标 是 否 是 战略 性 的 ， 取 决 于 企业 和 它 采 用 的 评价 。 在 许多 情况 下 ， 这 些 指 标 代表 了 战 
略 成 果 的 关键 驱动 因素 。 例 如 ， 文献 Hatch (2008) 回顾 了 一 段 时 间 内 中 档 酒 经 销 商都 集中 到 上 
游 成 为 供应 商 或 者 集中 到 下 游 成 为 零售 商 。 相 应 地 ， 要 重点 关注 4 种 运营 指标 : 手头 /实时 存货 
能 力 、 罕 出 “开放 ”订单 价值 、 新 网 络 账户 、 促 销 成 本 和 市 场 投资 回报 率 。 这 一 努力 的 最 终结 
果 是 1 年 内 收益 增长 12% 。 很 明显 ， 这 些 运 营 指 标 是 关键 驱动 因素 。 然 而 ， 就 像 在 下 一 节 中 说 
的 那样 ， 在 很 多 情况 下 ， 企 业 仅仅 是 出 于 方便 ， 很 少 考虑 为 什么 收集 这 些 数据 。 结 果 是 浪费 了 大 
量 的 时 间 、 精 力 和 资金 。 


3.6.2 现 有 绩效 评价 系统 存在 的 问题 


如 果 你 对 大 量 企业 进行 调查 ， 那 么 你 就 会 发 现 企业 时 时 刻 刻 在 抱怨 它 的 绩效 评价 系统 ( 相 
对 绩效 管理 系统 而 言 )。 使 用 最 广泛 的 系统 与 Kaplan 和 Norton 的 平衡 记分 卡 (Balanced Score- 
card, BSC) 有 一 此 不同。 各 种 调查 和 标准 研究 显示 50% ~90% 的 企业 已 经 一 次 或 分 多 次 实现 了 
不 同形 式 的 BSC。 例 如 ， 从 1993 年 以 来 ， 每 年 Bain & company 都 对 国际 高 管 进行 调查 ， 确 定 哪 
种 管理 工具 在 全 球 范围 内 使 用 最 广泛 (Rigby and Bilodeau，2009 ) 。 参 与 2008 年 度 调研 的 有 1400 
名 管理 人 员 。 根 据 这 项 调查 ，53% 的 企业 正在 实验 某 种 BSC。 在 大 多 数 调 查 中 ， 当 请 管理 人 员 描 
述 他 们 的 BSC 时 ， 似 乎 他 们 对 什么 构成 “平衡 ”有 些 不 解 。 但 是 ，BSC 的 创始 人 ，Kaplan and 
Norton (1966) 对 此 很 清楚 : 
BSC 方法 的 核心 是 对 组 织 战略 评价 系统 的 整体 构想 。 这 一 方法 依据 4 个 方面 的 视角 ; 顾客 视角 、 
组 织 内 部 视角 、 学 习 与 成 长 视角 以 及 基于 这 三 个 指标 的 财务 分 析 视 角 。 
然而 ， 如 同 Saxon Group 发 现 的 一 样 ， 绝 大 多 数 评价 指标 实际 上 都 是 财务 指标 (65% ) ， 或 
者 是 滞后 指标 〈80% ) ， 还 有 实际 上 都 是 内 部 指标 而 不 是 外 部 指标 〈75% ) 。 这 些 企业 真正 拥有 
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的 是 “记分 卡 ”一 一 一 系列 报告 、 报 表 和 特定 的 显示 方式 使 他 们 能 够 用 各 种 指标 将 实际 结果 与 
预计 结果 进行 对 比 。 

日 历 驱动 型 财务 报告 是 绩效 评价 系统 中 的 主要 组 成 部 分 。 这 并 不 奇怪 。 第 一 点 ， 这 些 系统 中 
的 很 大 一 部 分 属于 财务 部 门 的 权限 。 第 二 点 ， 大 部 分 企业 (Saxon 认为 是 67% ) 认为 计划 过 程 是 
每 年 需要 完成 的 财务 活动 。 第 三 点 ， 大 部 分 管理 者 几乎 不 关注 财务 或 运营 数据 之 外 的 数据 。 研 究 
表明 ， 管 理 者 重视 种 种 不 同形 式 的 数据 (如 财务 、 运 营 、 市 场 、 顾 客 ) ,但 是 他 们 认为 大 多 数 财 
务 或 运营 之 外 的 数据 并 不 可 靠 ， 并 且 不 愿意 将 他 们 的 工作 花费 在 那些 信息 的 质量 上 。 

将 财务 数据 作为 绩效 评价 系统 核心 的 缺点 很 明显 ， 最 常见 的 缺陷 如 下 所 列 : 

。 财务 指标 通常 由 组 织 结构 提出 报告 (如 研发 的 支出 )， 而 不 是 由 产生 财务 费用 的 过 程 

提出 。 

。 财务 指标 是 滞后 指标 ， 表 明 已 经 发 生 了 什么 而 不 是 为 什么 发 生 或 将 来 可 能 发 生 什么 。 

。 财务 指标 〈 如 管理 费用 ) 通常 是 与 产生 费用 的 基本 流程 不 相关 的 分 挫 结 果 。 

。 财务 指标 关注 短期 行为 ， 几 乎 不 能 提供 长 期 信息 。 

如 今 对 绩效 评价 系统 产生 危害 的 并 不 仅仅 是 财务 的 缺乏 远见 。 指 标 过 量 和 指标 倾向 性 也 是 
目前 危害 系统 的 主要 问题 。 

企业 自豪 地 宣布 它们 有 200 个 甚至 更 多 的 企业 级 指标 的 现象 屡见不鲜 。 很 难 想象 如 何 驾 驶 一 
辆 有 着 200 个 仪表 盘 的 汽车 。 然 而 ， 似 乎 我 们 觉得 管理 一 家 有 着 200 个 指标 的 企业 难度 并 不 大 ， 
即使 我 们 知道 人 类 只 能 同时 关注 少量 问题 ， 其 他 问题 就 简单 地 推 到 一 边 。 企 业 很 少 放弃 它们 已 
经 收集 的 指标 ， 导 致 指标 过 量 的 现象 愈 发 严重 。 如 果 出 现 新 的 数据 或 数据 要 求 ， 企 业 往 往 简 单 地 
把 它们 添加 到 已 有 的 列表 中 。 如 果 今 天 有 200 个 指标 ,那么 到 了 明天 就 会 有 201 个 ， 后 天 就 会 增 
加 为 202 个 。 即 使 计划 变 了 ， 或 者 出 现 了 机 会 和 问题 ， 而 且 迅 速 增加 ， 也 很 少 有 人 考虑 使 用 的 指 
标清 单 是 否 适 用 于 当前 的 情况 。 

相对 于 许多 指标 被 跟踪 ， 很 多 指标 缺乏 直接 的 管理 。Michael hammer (2003) 指出 ， 这 就 是 
倾角 原理 。 一 方面 ， 像 每 股 收入 、 股 本 回报 率 、 盘 利 能 力 、 顾 客 满意 度 这 类 的 指标 需要 监控 。 另 
一 方面 ， 这 些 指 标 只 能 以 带 倾向 性 的 方式 取得 。 能 够 控制 的 只 有 每 个 员工 或 雇员 的 行动 。 不 幸 的 
是 ， 任 何 个 别 的 行动 对 于 一 个 企业 的 战略 或 商业 团体 来 说 的 影响 几乎 可 以 忽略 。 控 制 的 关键 是 
实行 一 种 战略 性 的 商业 模式 或 方法 ， 这 种 战略 性 的 商业 模式 或 方法 从 项 层 开始 ， 围 绕 企 业 战略 
和 目标 ， 一 直 延 伸 到 底层 ， 通 过 执行 者 的 行为 表现 出 来 。 


3.6.3 ”有 效 的 绩效 指标 


很 多 书 都 提供 了 一 些 识别 绩效 指标 好 坏 与 否 的 秘诀 。 其 中 好 的 要 素 包 括 以 下 方面 : 

。 指标 应 该 关注 关键 的 因素 。 

e 指标 应 该 包括 过 去 、 现 在 和 将 来 。 

。 指标 应 该 平衡 股东 、 员 工 、 合 作 伙伴 、 供 应 商 和 其 他 利益 相关 者 之 间 的 需求 。 

。 指标 应 该 上 至 高 层 下 到 基层 。 

。 指标 需要 有 研究 和 实际 的 目的 性 而 不 是 随意 的 。 

就 像 这 节 中 在 KPI 部 分 所 指出 的 那样 ， 虽 然 所 有 这 些 因素 都 很 重要 ， 但 对 一 个 有 效 的 绩效 评 
价 系 统 ， 真 正 关键 的 是 要 有 恰当 的 战略 。 指 标 应 该 能 够 从 企业 或 商业 团体 的 战略 中 以 及 从 分 析 
实现 这 一 战略 的 关键 商业 流程 中 提炼 出 来 。 当 然 ， 说 起 来 容易 做 起 来 难 。 如 果 这 很 简单 的 话 ， 大 
多 数 企业 肯定 已 经 拥有 了 有 效 的 战略 评价 系统 ， 但 是 事实 是 他 们 没有 。 

应 用 案例 3. 2 描述 了 Expedia. com 的 基于 网 络 的 KPI 记分 卡 系统 ， 讲 述 了 定义 结果 和 驱动 
型 KPI 的 困难 ， 以 及 将 部 门 KPI 与 企业 方向 匹配 的 重要 性 。 
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应 用 案例 3. 2 Expedia. com 的 顾客 满意 记分 卡 


Expedia 公司 是 很 多 世界 领先 旅游 公司 的 母 公司 ， 它 向 美国 和 全 世界 的 个 人 和 团体 提供 旅 
游 产 品 和 服务 ， 它 拥有 并 经 营 着 许多 著名 的 多 样 化 的 产品 ， 包 括 Expedia. com, Hotel. com, 
Hotwire. com, TripAdvisor, Egencia, Classic Vacations 及 其 他 本 土 的 和 国际 的 业务 。 公 司 的 旅 
游 业务 包括 航班 、 酒 店 住宿 、 汽 车 租赁 、 目 的 地 服务 、 游 轮 以 及 将 航线 、 住 宿 、 汽 车 租赁 公 
司 、 目 的 地 服务 、 游 轮 及 其 他 旅游 产品 和 服务 公司 联合 起 来 实行 的 一 挠 子 旅游 方案 。 它 也 提 
供 预定 旅店 房间 、 机 票 、 租 车 和 来 自 旅游 公司 的 目的 地 服务 。 它 在 这 些 交 易 中 充 当代 理 的 角色 ， 
帮助 旅客 向 其 他 公司 预定 航班 、 酒 店 、 租 车 和 游轮 。 这 些 受 欢迎 的 品牌 和 新 颖 的 业务 ， 使 Expe- 
dia 成 为 全 球 最 大 的 在 线 旅 游 机 构 ， 美 国 第 三 大 旅游 公司 ， 全 球 第 四 大 旅游 公司 。 它 的 使 命 是 成 
为 全 世界 最 大 、 最 盈利 的 旅游 公司 ， 帮助 各 个 地 方 的 每 个 人 计划 并 购买 旅游 中 的 一 切 。 

问题 

顾客 满意 度 是 Expedia 公司 的 使 命 、 战 略 和 成 功 的 关键 。 因 为 Expedia. com 是 在 线 服务 ， 
所 以 顾客 的 购买 经 历 对 Expedia 的 利润 至 关 重 要 。 在 线 购 买 经 历 可 以 成 就 或 毁灭 在 线 交 易 。 
顾客 在 线 购买 经 历 是 愉快 的 旅行 经 历 的 写照 。 因 为 顾客 的 在 线 购买 经 历 很 重要 ， 所 以 应 该 追 
踪 、 监 控 顾 客 的 所 有 评论 ， 当 出 现 问题 时 尽快 解决 。 不 幸 的 是 ， 几 年 之 前 ，Expedia 并 没有 重 
视 “ 顾 客 之 声 " 。 没 有 统一 的 评价 满意 度 的 指标 ， 分 析 满 意 度 的 驱动 因素 或 者 确定 顾客 满意 
度 对 公司 盈利 能 力 或 整个 企业 目标 的 影响 。 

解决 方案 

Expedia 所 出 现 的 问题 并 不 是 因为 缺少 数据 。Expedia 负责 顾客 满意 度 的 小 组 知道 他 们 有 
足够 的 数据 。20 个 不 同 拥 有 者 一 共 拥 有 20 个 不 同 的 数据 库 。 最 初 ， 公 司 指派 其 中 一 名 商业 
分 析 师 ， 将 这 些 不 同 的 数据 库 进行 合并 与 集成 ， 从 中 找 出 影响 顾客 满意 度 的 关键 指标 。 这 名 
商业 分 析 师 每 月 花 2 ~3 周 的 时 间 进 行 数据 的 合并 和 集成 ， 实 际 上 没有 时 间 进 行 分 析 。 最 终 ， 
小 组 发 现 仅仅 进行 数据 集成 是 不 够 的 。 需 要 在 战略 背景 下 对 数据 进行 分 析 ， 员工 们 有 权 知 道 
分 析 的 结果 。 

为 了 解决 这 一 问题 ， 小 组 决定 完善 显示 方式 。 从 部 门 绩效 的 基本 驱动 因素 以 及 这 一 绩效 
和 Expedia 整体 绩效 的 联系 进行 详细 分 析 。 接 下 来 ， 小 组 修改 了 这 些 驱动 因素 并 使 之 与 记分 
卡 关 联 。 这 一 过 程 包 括 3 ADR: 

1. 确定 如 何 评价 满意 度 ”这 要 求 小 组 确定 20 个 数据 库 中 哪些 指标 对 描述 顾客 满意 度 适 
用 。 这 成 为 记分 卡 和 KPI 的 基础 。 

2. 设 定 正确 的 绩效 目标 ”这 和 要求 小 组 决定 KPI 目标 既 要 有 短期 的 回报 还 要 有 长 期 的 回 
报 。 顾 客 对 其 在 线 经 历 满意 并 不 意味 着 会 对 卖方 提供 的 旅游 服务 满意 。 

3. 输入 数据 ”小 组 需要 将 数据 持续 不 断 地 与 顾客 满意 计划 相 结 合 。 

图 3-5 提供 了 这 一 系统 的 技术 概述 。 将 各 种 不 同 的 实时 数据 资源 输入 到 一 个 主 数据 库 
( 称 其 为 决策 支持 工厂 ) 。 对 顾客 满意 度 小 组 来 说 ， 该 系统 包括 顾客 调查 、CRM AA, REN 
语音 应 答 系 统 和 其 他 顾客 服务 系统 。 决 策 支 持 工厂 中 的 数据 从 业务 数据 库 中 加 载 到 数据 集 市 
和 多 维 立 方 体 。 用 户 可 以 通过 不 同 的 方式 访问 数据 库 以 满足 他 们 不 同 的 商业 需求 。 

获得 收益 

最 后 ， 顾 客 满意 度 小 组 实现 了 10 ~ 12 个 直接 与 Expedia 公司 整体 目标 相关 的 目标 。 这 些 
目标 依次 与 顾客 满意 度 小 组 的 200 多 个 KPI 关联 。KPI 拥有 者 可 以 建立 、 管 理 、 使 用 他 们 自己 
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的 记分 卡 ， 管 理 者 和 经 理 对 战略 执行 的 情况 如 何 心 知 肚 明 。 记 分 卡 同时 向 顾客 满意 度 小 组 提 
供 向 下 钻 取 数 据 的 功能 ， 用 于 发 现 潜在 的 发 展 趋势 和 形式 。 在 过 去 ， 所 有 的 这 些 需 要 几 个 星 
期 甚至 几 个 月 的 时 间 完 成 。 在 使 用 了 记分 卡 之 后 ， 顾 客 满 意 度 小 组 可 以 立即 看 到 和 PI 方面 的 
表现 如 何 ， 这 些 指标 依次 反映 小 组 和 公司 的 目标 。 








操作 型 
数据 库 











日 常数 据 集 市 








决策 支持 工厂 





图 3-5 Expedia 的 记分 卡 系统 


作为 额外 的 收益 ， 系 统 中 的 数据 不 仅仅 为 顾客 满意 度 小 组 提供 支持 ， 也 支持 企业 中 其 他 
部 门 的 工作 。 人 例如， 基层 管理 人 员 可 以 逐一 分 析 每 个 市 场 的 飞机 费用 ， 以 评价 谈判 合同 的 绩 
效 ， 或 者 确定 在 单程 运输 中 通过 合并 支出 节省 开支 的 可 能 性 。 旅 行 部 门 的 经 理 可 以 利用 商务 
智能 发 现 哪个 区 域 闲 置 或 没有 被 订购 票数 量 ， 提 出 能 够 调整 现象 的 战略 ， 增 加 节约 。 

来 源 : Based on Microsoft , “ Expedia; Scorecard Solution Helps Online Travel Company Measure the Road to Greatness,” A- 
pril 12 ,2006 , microsoft. com/casestudies/Case_Study_Detail. aspx? CaseStudyID =49076 (accessed Jan- 
uary 2010); R. Smith, “Expedia-STeam Blog: Technology,” April 5, 2007, expedia-team5. blogspot. com 
(accessed January 2010) . 











3.6 节 复 习题 


1. 什么 是 绩效 评价 系统 ? 

2. 什么 是 KPI， 它 有 什么 特性 ? 

3. KPI 和 运营 指标 有 什么 不 同 ? 

4. 仅仅 依靠 财务 指标 进行 绩效 评价 的 缺点 是 什么 ? 
5. 什么 是 倾角 原理 ? 

6. “好 ”的 绩效 指标 应 该 具有 什么 样 的 特征 ? 


3.7 BPM 方法 


与 简单 的 记分 相 比 ， 还 有 很 多 绩效 评价 方法 。 有 效 的 绩效 考核 评价 系统 应 该 做 到 以 下 几 点 : 
。 上 层 的 战略 目标 应 与 下 层 的 举措 相 匹配 

© 及 时 发 现 机 会 和 存在 的 问题 

。 决定 优先 权 ， 并 根据 优先 权 分 配 资源 

。 如 果 基 本 流程 或 战略 改变 ， 评 价 标准 进行 相应 的 调整 
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。 描述 责任 ， 明 确实 际 绩效 和 责任 的 关系 ， 奖 励 以 及 识别 成 就 

。 如 果 系 统 中 的 数据 显示 有 必要 ， 就 及 时 采取 相应 的 措施 改进 流程 和 步骤 

。 及 时 、 可 靠 地 进行 计划 和 预测 

整体 或 系统 的 绩效 评价 体系 应 该 能 够 完成 这 些 要 求 以 及 其 他 的 一 些 要求 。 在 过 去 的 40 年 其 
至 更 久 的 时 间 里 ， 涌 现 出 了 很 多 不 同 的 系统 。 其 中 ， 作 业 基 准 成 本 法 (Activity- based Costing, 
ABC) 或 作业 基准 管理 法 是 以 财务 为 核心 的 。 另 一 些 ， 如 全 面 质量 管理 则 以 流程 为 基础 。 在 接 下 
来 的 讨论 中 ， 我们 注重 介绍 两 种 使 用 广泛 、 支 持 基 本 流程 、 强 调 BPM 的 方法 : 平衡 记分 卡 〈 参 


TL thepalladiumgroup. com) 和 六 西格玛 (参见 Motorola. com/motorolauniversity. jsp) 。 


3.7. 1 平衡 记分 卡 


知名 度 最 高 、 使 用 最 广 的 绩效 管理 系统 也 许 要 属 平衡 记分 卡 法 。1992 年 ，Kaplan 和 Norton 
在 他 们 发 表 在 《Harvard Business Review) 上 的 论文 “The Balanced Scorecard; Measures That Drive 
Rerformance” 中 第 一 次 提出 了 这 一 概念 。 几 年 后 ，1996 年 他 们 又 出 版 了 具有 开创 性 的 书 一 一 
«The Balanced Scorecard; Translating Strategy into Action》。 在 这 本 书 中 ， 他 们 阐述 了 企业 如 何 利用 
BSC， 不 仅仅 提供 财务 指标 和 非 财务 指标 ， 还 能 够 通过 沟通 来 实施 他 们 的 战略 。 经 过 过 去 几 年 的 
RR, BSC 已 经 成 为 通用 的 名 词 ( 如同 可 乐 和 施乐 )， 用 于 真实 表示 各 种 记分 卡 的 应 用 和 实施 ， 
无 论 是 平衡 的 还 是 战略 的 。 为 了 回应 这 一 词 的 滥用 现象 ，Kaplan 和 Norton, 2000 年 又 出 了 一 本 新 
书 , 《The Strategy- Focused Organization: How Balanced Scorecard Companies Thrive in the New Busi- 
ness Environment》。 写 这 本 书 的 目的 是 重新 强调 使 用 BSC 方法 要 基于 以 战略 为 核心 的 环境 。 几 年 
之 后 ， 在 2004 年 ， 在 《Strategy Maps: Converting Intangible Assets into Tangible Outomes) 一 书 中 ， 
阐述 了 将 战略 目标 转化 为 操作 层面 战术 和 举措 的 具体 流程 。 最 后 ， 他 们 在 2008 年 最 新 出 版 的 一 
本 书 , (The Execution Premium》， 注 重 战略 缺口 一 一 战略 准则 与 具体 运营 实施 的 融合 。 

平衡 记分 卡 的 意义 ”从 整体 层面 来 看 ， 平 衡 记 分 卡 既 是 进行 绩效 评价 的 方法 也 是 一 种 管理 
方法 ， 这 种 管理 思想 能 够 帮助 将 企业 的 财务 、 顾 客 、 内 部 流程 及 学 习 与 成 长 的 目标 和 任务 转换 为 
一 系列 的 行动 方案 。 作 为 一 种 管理 思想 ，BSC 的 设计 可 以 克服 企业 以 财务 为 中 心 的 系统 局 限 。 它 
通过 将 组 织 的 愿景 和 战略 转换 为 一 系列 的 相关 联 的 财务 与 非 财务 的 目标 、 度 量 措施 、 目 的 和 动 
机 。 非 财务 的 目标 分 为 3 个 部 分 : 

。 顾客 这 一 目标 定义 了 组 织 如 果 想 要 实现 自身 的 愿景 应 该 以 怎样 的 形象 出 现在 顾客 面前 。 

。 内 部 业务 流程 这 一 目标 强调 组 织 为 了 满足 利益 相关 者 和 顾客 的 要 求 必须 详细 说 明 其 

流程 。 

。 学 习 和 成 长 ”这 一 目标 阐述 了 组 织 怎么 做 才能 改变 并 提高 其 达到 愿景 的 能 力 。 

基本 上 ， 非 财务 的 目标 之 间 有 这 样 的 因果 关系 : 通过 “学 习 与 成 长 ”使 “内 部 业务 流程 ” 
改变 ， 产生 “顾客 ”成 果 以 达到 企业 “财务 ”目标 。 这 一 因果 关系 的 范例 可 以 参见 图 3-6。 

在 BSC 中 ， 强 调 平衡 这 个 词 ， 因 为 一 系列 组 合 测量 措施 包括 以 下 几 种 指标 : 

。 财务 的 和 非 财务 的 

© 处 于 领先 的 和 落后 的 

。 外 部 的 和 内 部 的 

。 数量 的 和 质量 的 

。 短期 的 和 长 期 的 

调整 战略 和 行动 ”作为 一 种 战略 管理 方法 ，BSC 使 组 织 的 行动 能 够 与 其 总 体 目标 相 一 致 。 
BSC 通过 一 系列 相互 关联 的 步骤 完成 这 个 目标 。 不 同 的 书 涉 及 的 具体 步骤 不 一 样 。 在 最 新 的 译文 
中 ，Kaplan and Norton (2008) 提出 了 包括 6 个 步骤 的 流程 : 
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| 战略 图 : 平衡 记分 卡 : 战略 方案 : 
ac 相关 的 项 目 度量 值 和 目标 行动 计划 
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图 3-6 战略 地 图 和 平衡 记分 卡 


1. 制定 并 阐述 战略 制定、 阐明 组 织 的 使 命 、 价 值 和 愿景 ; 通过 战略 分 析 ， 识 别 影响 企业 
战略 的 内 部 和 外 部 实力 ; 明确 组 织 的 战略 方向 ， 详 细 说 明 组 织 如 何 实施 战略 。 

2. 战略 计划 将 战略 的 陈述 转化 为 具体 的 目的 、 度 量 值 、 目 标 和 举措 ， 指 南 行动 的 预算 ， 
使 组 织 与 有 效 的 战略 实施 保持 一 致 。 

3. 与 组 织 保持 一 致 确保 企业 的 业务 单元 和 辅助 部 门 的 战略 和 企业 的 总 体 战略 保持 一 致 ， 
激发 员工 的 积极 性 ， 实 现 企业 的 目标 。 

4. 实施 计划 ”确保 战略 的 改变 能 够 转化 为 实施 过 程 、 资 源 能 力 、 实 施 计划 、 影 响 战略 的 预 
算 和 战略 需要 的 改变 。 

5. 监督 和 学 习 ”通过 正式 运营 审查 会 议 ,决定 企业 的 短期 财务 和 实施 绩效 是 否 和 目标 保持 
一 致 ， 通 过 战略 审查 会 议 来 查看 战略 目标 是 否 成 功 执行 。 

6. 测试 和 调整 战略 ”通过 战略 测试 和 调整 会 议 确定 战略 是 否 有 效 、 基 本 假设 是 否 有 效 以 及 
战略 是 否 随时 间 变 化 而 进行 更 改 和 调整 。 

表面 上 ， 这 些 步骤 和 图 3-1 中 闭环 的 BPM 系统 很 相像 ， 这 不 奇怪 ， 因 为 BSC 方法 是 BPM 方 
法 中 的 一 个 。 然 而 ，BSC 方法 和 其 他 方法 的 一 个 不 同 点 在 于 ， 它 应 用 了 两 个 独一无二 的 新 型 工 
具 一 一 战略 地 图 和 平衡 记分 卡 。 

战略 地 图 和 平衡 记分 卡 相 互 关联 。 战 略图 描述 了 通过 一 系列 的 因果 关系 来 实现 企业 的 增值 
过 程 ， 这 些 因果 关系 是 BSC 中 的 4 个 关键 指标 : 财务 、 顾 客 、 业 务 流程 、 学 习 和 成 长 。 平 衡 记 
分 卡 是 对 和 各 种 目的 相关 的 行动 测量 实现 的 和 目标 进行 追踪 。 战 略 地 图 和 BSC 帮助 企业 对 各 个 
战略 进行 调整 、 传 播 和 度量 。 

图 3-6 是 一 个 虚构 企业 的 战略 地 图 和 平衡 记分 卡 的 例子 。 其 中 还 包含 了 帮助 企业 实现 战略 目 
标的 方案 组 合 。 从 图 中 可 以 看 出 ， 企 业 包含 了 贯穿 4 个 BSC 观点 的 7 个 目标 。 和 其 他 战略 地 图 一 
样 ， 该 图 以 财务 目标 开始 〈 例 如 ， 增 加 净 收 入 ) ,该 目标 受 客户 目标 (例如 ， 增 加 客户 保留 量 ) 
驱动 ， 反 过 来 ， 客 户 目 标 是 企业 内 部 目标 的 结果 (例如 ， 提 高 呼叫 中 心 绩效 )。 沿 该 图 直至 地 图 
底层 ， 就 找到 了 学 习 目 标 〈( 例 如 ,减少 员工 的 流动 ) 。 

战略 图 上 的 每 个 目的 都 和 一 个 度量 值 、 目 标 和 行动 方案 相关 。 如 “增加 客户 保留 量 ” 的 目 
标 和 “维持 保留 率 ” 指 标 相关 ， 该 指标 可 能 有 一 个 每 年 增长 15% 的 目标 。 其 中 方法 之 一 就 是 可 
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以 通过 改变 (简化 ) 许可 证 和 维持 合同 来 实现 该 增长 。 

总 之 ， 图 3-6 中 的 战略 地 图 是 一 个 虚构 的 业务 战略 模型 ， 当 特定 的 名 字 〈 如 人 或 者 团队 ) 被 
安排 到 各 种 方案 时 ， 该 模型 实现 了 低层 次 的 行动 与 高 层次 的 战略 目标 的 一 致 性 。 将 真实 结果 和 
战略 目标 进行 对 比 ， 可 以 决定 假设 表现 的 战略 是 否 值得 怀疑 ， 对 与 假设 有 关 的 各 种 行动 是 否 需 
要 调整 。 

图 3-6 是 一 个 相对 简单 和 明确 的 部 分 业务 战略 图 ， 大 多 数 的 战略 图 是 比较 复杂 的 ， 而 且 覆 盖 
一 系列 的 目标 。 由 于 这 些 战 略 地 图 的 复杂 性 ，Kaplan 和 Norton 最 近 提出 了 一 个 叫做 “战略 主题 ” 
的 概念 ,，“ 战 略 主题 将 一 个 战略 分 为 几 个 独立 的 增值 过 程 。” 每 一 个 战略 主题 代表 一 系列 相关 的 
战略 目标 。 例 如 ， 图 3-6 中 的 战略 目标 可 以 表示 为 “客户 管理 ”。 如 果 图 3-6 的 虚构 企业 试图 通 
过 捕获 一 个 竞争 对 手 来 提升 净 收 入 ， 可 能 会 有 一 个 “兼并 和 获取 ”的 主题 。 战 略 主题 背后 的 思 
想 是 一 个 简化 实施 、 执 行 、 追 踪 和 调整 战略 的 过 程 。 


3.7.2 六 西格玛 


六 西格玛 兴起 于 20 世纪 80 年 代 中 期 ， 已 经 被 世界 上 的 许多 公司 所 采用 。 最 重要 的 是 ， 它 被 
作为 一 个 绩效 管理 方法 。 然 而 ， 许 多 公司 将 它 作为 一 个 帮助 企业 核查 实施 流程 、 发 现 问题 和 找 出 
解决 办 法 的 流程 改进 方法 。 近 几 年 ， 有 些 公 司 ， 如 Motorola 已 经 意识 到 六 西格玛 在 战略 中 的 作 
用 。 在 这 些 实例 中 ， 六 西格玛 提供 了 测量 和 监控 与 公司 盈利 相关 的 关键 流程 的 手段 ， 并 用 于 提升 
企业 的 总 体 效 益 。 由 于 关注 于 业务 流程 ， 六 西格玛 也 提供 了 一 种 在 识别 或 发 现 问题 之 后 ， 处 理 绩 
效 问题 的 直接 方法 。 

六 西格玛 定义 ”许多 六 西格玛 的 思想 在 早期 的 质量 措施 里 出 现 过 , 但 是 六 西格玛 的 历史 要 
追溯 到 20 世纪 70 年 代 (参考 en. wikipedia. org/wiki/Six_Sigma)。 六 西格玛 是 由 Motarola 的 工 
程 师 Bill Smith 创建 的 。 实 际 上 ， 六 西格玛 是 Motorola 的 一 个 联邦 注册 商标 ， 在 20 世纪 70 年 代 末 
和 20 世纪 80 年 代 早 中 期 Motorola 迫 于 内 外 界 环境 的 压力 下 实施 了 六 西格玛 。 从 外 部 来 说 ， 被 
一 些 提供 质 高 价 廉 产 品 的 竞争 者 打败 。 从 内 部 来 说 ,一 个 日 本 的 公 





表 3-1 商业 流程 的 种 类 

司 接管 了 美国 Motorola 生产 Quasar 电视 机 的 工厂 ， 在 正常 操作 程序 会 计 和 测量 
下 生产 的 电视 机 的 不 合格 率 是 5% ，Motorola 管理 者 不 得 不 承认 他 们 行政 和 设施 管理 
的 质量 不 行 。 为 了 应 对 这 些 压力 ，Motorola 的 CEO, Bob Galvin 领导 审计 和 改进 
公司 走 六 西格玛 的 质量 路 线 。 从 此 ， 世 界 上 包括 General Electric, 商业 计划 和 执行 
Allied Signal, DuPont, Ford, Merrill Lynch, Caterpillar 和 Toshiba 在 商业 政策 和 程序 
内 的 数 百 个 企业 开始 利用 六 西格玛 ， 使 最 高 增长 达 数 十 亿美 元 ， 并 全 球 市 场 营销 和 销售 
提高 了 最 低 收 入 。 信息 管理 和 分 析 

在 六 西格玛 理论 中 ， 一 个 商务 活动 被 看 做 是 各 种 业务 流程 的 集 领导 和 至 利 能 力 
合 ， 一 个 业务 流程 是 一 系列 活动 的 集合 ， 活 动 将 包括 供应 商 、 资 产 、 学 习 和 创新 
资源 (如 资产 、 物 料 和 员工 ) 和 信息 等 的 一 组 输入 转化 为 提供 给 其 。 维持 和 合作 
他 的 人 或 流程 的 一 组 输出 〈 如 产品 或 服务 ) 。 表 3-1 列 出 了 一 些 商务 合 伏 和 联盟 
处 理 过程 对 企业 总 体 效益 的 影响 。 

o (西格玛 ) 是 一 个 希腊 字母 ， 统 计 学 家 用 它 来 评价 一 个 过 程 ae 
的 变化 范围 ， 在 质量 管理 中 ， 变 化 性 和 不 合格 数 表 示 同 样 的 意思 。 ee 


一 般 情 况 下 ， 公 司 在 商业 活动 中 存在 很 大 的 可 变性 。 在 数量 上 ， 每 


100 万 个 机 会 有 6 200 ~ 6 700 次 缺陷 是 正常 的 (DPMO)。 例如 ,一 个 保险 公司 每 处 理 100 万 个 索 
赔 事件 中 ， 会 有 6 200 ~ 6 700 个 是 不 能 令 人 满意 的 〈 如 处 理 不 当 、 表 格 错误 ) 。 这 种 可 变性 对 应 
3 ~4 个 西格玛 值 。 为 了 达到 六 西格玛 ， 企 业 要 将 缺陷 减少 到 少 于 3.4DPMO 以 下 。 因 此 ， 六 西 格 
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玛 是 一 个 用 于 减少 商业 流程 中 缺陷 率 并 尽量 将 DPMO 减 小 到 0 的 一 个 绩效 管理 方法 。 

DMAIC 绩效 模型 ”六 西格玛 依赖 于 一 个 简单 的 绩效 改进 模型 DMAIC。 就 像 BPM, DMAIC 是 
一 个 闭环 的 商务 绩效 改进 模型 ， 包 括 定义 、 度 量 、 分 析 、 改 进 和 控制 一 个 流程 ， 步 又 如 下 : 

1. 定义 ”定义 改进 活动 的 目标 、 目 的 和 范围 。 在 最 高 层次 目标 是 企业 的 战略 目标 ， 在 较 低 
层次 一 一 部 门 或 项 目 级 别 一 一 是 指 每 个 操作 过 程 的 目标 。 

2. 度量 ”对 存在 的 系统 进行 度量 ， 确 定 能 够 产生 有 效 统计 数据 的 度量 数值 ， 数 据 用 于 对 前 
一 步 定 义 的 目标 进行 监控 。 

3. 分 析 对 系统 进行 分 析 ， 消 除 目前 系统 或 流程 绩效 与 目标 的 差距 。 

4. 改进 ”初始 方案 通过 找 出 更 好 、 更 便宜 、 更 快 的 方法 来 减 小 差距 ， 用 项 目 管理 和 其 他 的 
计划 工具 来 实现 新 方法 。 

5. 控制 ”通过 修改 补偿 和 激励 系统 、 政 策 、 步 又 、 制 定 资源 计划 、 预 算 、 操 作 指导 或 者 其 
他 的 管理 系统 使 系统 改进 制度 化 。 

对 于 新 的 商业 过 程 ， 使 用 的 模式 称 为 定义 、 度 量 、 分 析 、 设 计 和 校 验 (Define Measure Ana- 
lyze 、Design、Verify，DMADV)。 传 统 意义 上 ，DMAIC 和 DMADV 主要 用 于 解决 操作 性 问题 。 但 
是 ， 将 它们 应 用 于 企业 的 战略 问题 上 ， 如 企业 利润 ， 毫 无 问题 。 

精益 六 西格玛 ” 近 几 年 ， 人 们 开始 关注 将 六 西格玛 方法 和 精益 生产 一 起 使 用 ， 精 益生 产 或 
者 简称 精益 (该 方法 概要 可 参考 en. wikipedia. org/wiki/Lean_manufacturing) 。 精 益 的 早期 概念 
可 以 追溯 到 Henry Ford 的 工作 流 批 量 生产 。 最 近 ， 精 益生 产 的 概念 和 Toyota (Toyota 生产 系统 ) 
生产 过 程 相 关联 。 精 益生 产 一 词 是 由 John Krafcik 于 1988 年 发 表 在 «Sloan Management Review) 
上 名 为 “Triumph of the Lean Production System” 的 文章 提出 的 (Krafcik, 1988), ， 也 是 基于 他 在 
麻 省 理工 大 学 斯 隆 管理 学 院 的 硕士 毕业 论 ER 














文 。 在 麻 省 理工 学 院 工 作 之 前 ，Krafcik 六 西格玛 
是 丰田 和 通用 汽车 合作 项 目 中 的 质量 工 减少 变化 
程 师 。 集中 于 发 现 问题 
六 西格玛 和 精益 生产 均 用 于 质量 管 Sea ss 
EZ 小 Ay 8 统一 
-2 天 s 
理 ， 表 3 对 两 者 进行 了 比较 减少 变化 ， 统 一 输出 


就 像 表 3-2 列 出 的 ， 精 益生 产 的 核心 
在 于 减少 浪费 和 非 增 值 的 活动 ， 然 而 六 西格玛 的 核心 在 于 减少 变化 ， 使 输出 一 致 。Six Sigma Institu- 
te， 从 精益 的 观点 来 看 ， 浪 费 (或 认识 浪费 ) 来 自 于 各 种 可 变 的 因素 (Six Sigma Institute, 2009) : 

。 生产 多 于 需求 

。 等 待 下 一 个 处 理 过 程 的 信息 

。 不 必要 的 材料 运输 

。 过 量 而 非 增值 过 程 

。 存货 量 大 于 最 低 限度 

。 员工 多 余 的 操作 

。 不 合格 零件 生产 

精益 生产 可 以 应 用 于 任何 产品 和 工作 流 ， 不 仅仅 是 生产 活动 中 。 目 的 是 对 工作 流 进行 检查 ， 
消除 浪费 。 下 面 是 处 理 顾客 要 求 或 电话 投诉 过 程 中 出 现 的 一 些 不 必要 的 浪费 : 

。 过 量 生 产 一 一 向 每 个 人 发 布 所 有 信息 

。 等 待 一 一 等 待 信息 的 人 

。 传输 一 一 将 呼叫 转 给 许多 操作 员 

© 处 理 一 一 过 多 地 批准 发 布 信息 
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。 存货 清单 一 一 访客 有 待 回 答 

。 举动 一 一 检索 印刷 说 明 书 

。 过 失 向 顾客 提供 错误 的 信息 

精益 给 六 西格玛 带 来 的 是 速度 提升 ， 精 益生 产 通过 消除 非 增值 的 步骤 来 实现 加 速 (Poppend- 
ieck，2009)。 一 旦 组 成 流程 的 都 是 有 价值 的 步骤 ,六 西格玛 能 够 确保 这 些 步 又 的 前 后 一 致 性 。 
例如 ， 上 面 所 举 的 客服 中 心 例子 ,一 旦 为 取 回 打印 手册 制定 了 合理 的 步骤 ， 那么 下 一 步 就 要 决定 
如 何 严 格 按照 该 步骤 实施 。 

六 西格玛 的 回报 ”六 西格玛 理论 的 专家 和 学 者 对 该 方法 提出 好 评 并 用 通用 电气 (General 
Electric, GE) 和 Honeywell 例子 证 明了 六 西格玛 方法 的 优势 。GE 的 前 CEO, Jack Welch， 从 
1995 年 开始 利用 六 西格玛 方法 ， 并 公开 表明 “六 西格玛 帮助 企业 2000 年 的 营业 利润 率 从 4 年 前 
的 14.8% 达 到 了 18. 9% ”。 最 近 ，Caterpillar Inc (2009) 指出 利用 六 西格玛 方法 节约 了 30 亿美 
元 。 其 他 学 者 指出 ，Home Depot 的 事例 说 明了 利用 六 西格玛 方法 有 可 能 导致 失败 (Richardson, 
2007) 。 广 为 报道 的 Home Depot 采用 六 西格玛 ， 源 于 它 的 前 CEO, 来 自 于 GE 的 Robert Nardelli, 
从 此 ，Home Depot 业绩 开始 下 降 ， 市 场地 位 被 主要 竞争 对 手 Lowes 占领 。Nardell 离开 公司 后 指出 
六 西格玛 并 没有 像 自己 承诺 的 那样 奏效 。 六 西格玛 方法 的 反对 者 同样 认为 ， 六 西格玛 在 提高 生 
产 效 率 上 能 发 挥 很 好 的 作用 ( Hindo，2007)。 对 于 通过 革新 来 提高 业绩 的 企业 ， 六 西格玛 不 能 
起 到 很 好 的 作用 。Honeywell 的 代言 人 对 六 西格玛 的 争议 提出 了 一 个 更 加 适度 的 观点 ,，“ 六 西格玛 
不 是 终极 目的 ， 它 只 是 一 个 处 理工 具 ， 我 们 不 能 把 企业 的 业绩 仅仅 和 使 用 的 工具 相关 联 ” ( Rich- 
ardson ，2007 ) 。 

六 西格玛 和 其 他 的 商业 方案 没有 什么 区 别 。 你 可 以 制订 计划 ， 并 找 出 评价 指标 评估 执行 过 
程 ， 如 果 没 能 按照 自己 希望 的 方式 部 署 ， 那 么 可 以 对 此 做 出 调整 。 下 面 的 措施 能 够 显著 提高 六 西 
格 玛 的 成 功 (Wurtzel, 2008) : 

。 六 西格玛 和 企业 战略 相 集成 ”六 西格玛 在 减少 过 程 的 变化 上 起 到 很 大 的 作用 。 如 今 ， 越 

来 越 多 的 企业 开始 实施 六 西格玛 方法 ， 并 将 它 作 为 企业 战略 的 一 部 分 。 

。 六 西格玛 帮助 企业 实现 目标 ”企业 取得 好 的 业绩 需要 依靠 六 西格玛 方法 解决 面临 的 主要 
商业 挑战 或 风险 。 识 别 企业 面临 的 挑战 意味 着 ， 所 有 的 企业 领导 者 都 明白 为 什么 要 将 六 
西格玛 作为 企业 制定 战略 的 准则 。 

。 关键 管理 人 员 的 参与 ”一 个 企业 的 所 有 业务 管理 者 必须 帮助 企业 设计 六 西格玛 的 部 署 ， 
如 果 管 理 者 认为 六 西格玛 只 是 占用 了 企业 的 资源 ， 而 没有 增加 企业 的 能 力 并 帮助 他 们 成 
功 实现 目标 ， 或 者 认为 六 西格玛 减少 了 企业 的 预算 分 配 而 没有 带 来 财务 上 的 回报 ， 那 么 
他 们 就 不 会 支持 六 西格玛 的 实施 。 

。 基于 潜在 价值 项 目的 选择 ”一 些 成 功 实施 六 西格玛 的 企业 通过 评估 该 项 目 能 够 给 利益 相 
关 者 带 来 多 少 价值 ， 严 谨 地 选择 所 要 实施 的 项 目 ， 这 是 一 个 通过 比较 创造 价值 和 付出 成 
本 来 权衡 决策 的 过 程 。 

。 大 量 的 项 目 和 资源 一 些 企业 在 实施 新 项 目 时 ， 对 大量 的 人 员 进 行 培 训 , 但 是 在 项 目 论 
证 上 投入 较 少 。 另 外 一 些 企业 加 大 当前 企业 级 项 目的 开发 ,在 6 个 月 时 间 里 培训 大 量 的 
“ 黑 带 ”并 启动 几 十 个 项 目 。 这 里 ， 黑 带 是 指 经 过 六 西格玛 培训 ， 并 投入 100% 的 时 间 用 
于 执行 六 西格玛 计划 的 员工 。 每 种 方法 都 是 可 行 的 ， 但 是 对 每 个 企业 来 讲 ， 都 存在 一 个 
六 西格玛 投入 上 的 临界 点 。 

。 积极 管理 进行 中 的 项 目 假设 大 多 数 的 企业 想 在 6 个 月 或 1 年 内 达到 可 评价 的 重大 结果 ， 
那么 就 要 尽 可 能 地 将 更 多 的 项 目 投入 到 精益 六 西格玛 中 。 最 好 是 能 够 选择 少量 的 有 潜力 
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的 项 目 ， 而 不 是 大 量 的 不 重要 的 项 目 。 将 正确 的 资源 放置 到 正确 的 项 目 中 ， 才 能 在 短期 
内 获得 最 大 的 学 习 和 结果 。 
强调 小 组 领导 技巧 ”六 西格玛 的 应 用 需要 加 入 一 些 技术 性 的 技巧 ， 如 处 理 和 分 析 数 据 的 能 
力 。 但 是 ， 优 秀 的 领导 技巧 更 为 重要 ， 这 表明 企业 要 考虑 如 何 选择 合适 人 选 作为 黑 带 的 角色 。 刚 
开始 ， 将 企业 很 多 有 前 途 的 人 员 作 为 黑 带 人 选 是 困难 的 ， 但 是 这 样 能 够 很 快 取得 成 效 并 快速 改 
变 企业 的 组 织 状况 。 
严格 追踪 结果 ”六 西格玛 的 实施 应 该 是 “量入为出 ”， 并 且 结 果 能 够 被 客观 证 实 。 许 多 企业 
没有 完全 可 靠 的 方法 来 判断 项 目的 结果 和 影响 ,或 者 低估 了 实施 中 的 困难 。 一 个 项 目 应 当 都 是 
计划 好 的 ， 企 业 必须 考虑 潜在 的 影响 财务 结果 的 各 种 评价 办 法 和 关键 绩效 指标 。 项 目的 运行 周 
期 及 项 目的 价值 都 应 当 作为 基本 的 评价 指标 ， 并 为 这 些 指标 制定 一 个 可 接受 的 变动 范围 。 
为 了 提高 实施 六 西格玛 方案 成 功 的 可 能 性 ， 一 些 企 业 ， 如 Motorola 和 Duke University Hospital 
将 六 西格玛 方案 和 企业 的 BSC 方案 一 起 实施 。 这 样 ， 它 们 的 质量 方案 就 和 企业 的 战略 目标 相关 
联 。 同 时 ，( Gupta，2006) 制定 了 一 个 叫做 六 西格玛 业务 记分 卡 的 混合 方法 ， 该 方法 将 六 西格玛 
的 提升 处 理 过 程 和 BSC 的 财务 指标 相互 结合 。 技 术 前 沿 3. 1 介绍 了 这 种 结合 的 优点 和 结构 。 


技术 前 沿 3. 1 BSC MATES 

2006 年 Praveen Gupta 在 一 本 名 为 《Six Sigma Business Scorecard》 的 书 中 提 到 了 平衡 记分 卡 和 六 西格玛 
方法 的 区 别 ， 见 表 3-3 所 示 。 简 而 言 之 ，BSC 的 重点 在 于 优化 战略 结果 ， 而 六 西格玛 在 于 优化 流程 。 

由 于 存在 着 这 些 不 同 点 ， 所 以 许多 企业 都 分 开 实 施 BSC 和 六 西格玛 方案 。 然 而 ， 自 波士顿 Aberdeen 集 
团 的 已 退休 副 总 裁 Stan Elbuam 指出 ，BSC 和 六 西格玛 是 相互 补充 的 。(Leahy，2005) 文献 指出 ， 如 果 两 者 
不 相互 结合 ， 那 么 它们 中 任何 一 个 的 优势 都 不 能 发 挥 出 来 。BSC 方法 帮助 企业 迅速 精确 地 认识 到 关键 绩效 
中 的 不 足 ， 并 为 企业 的 发 展 提供 机 会 。 但 是 ，BSC 不 能 帮助 企业 改进 绩效 问题 。 相 比 之 下 ， 六 西格玛 项 目 
处 于 挣扎 处 境 ， 因 为 项 目 团队 “将 整个 组 织 主要 专注 于 找 出 绩效 的 缺陷 或 者 将 关注 点 放 在 提升 企业 的 边际 
收益 方面 ”(Leahy，2005 ) 。 这 两 种 方法 之 所 以 是 相互 补充 的 ， 是 因为 BSC 为 提高 绩效 方案 提供 了 战略 内 
容 ， 六 西格玛 可 以 找 出 绩效 不 足 之 处 的 基本 原因 并 减 小 目标 和 现实 之 间 的 差距 。 

不 久 前 ， 一 个 针对 采用 BSC 或 六 西格玛 项 目的 企业 调查 (Docherty, 2005) 表明 ， 采 用 这 些 项 目的 企 
业 中 几乎 有 一 半 在 前 3 年 无 法 实现 盈亏 平衡 ,但 是 那些 运作 很 好 的 企业 在 财务 上 获得 了 很 大 的 财务 利益 。 
那些 获得 最 大 纯 收 益 的 是 能 够 将 BSC 和 六 西格玛 两 种 方法 集成 起 来 的 企业 。 通 过 以 下 过 程 可 以 实现 两 者 的 
集成 : 

。 将 企业 的 战略 转化 为 可 计量 的 目标 ”这 可 以 通过 制定 战略 地 图 和 利用 相关 度量 值 的 记分 卡 来 实现 。 

。 通过 组 织 关 系 将 各 个 目标 串 在 一 起 ”利用 六 西格玛 分 析 企 业内 部 各 种 因果 关系 ,将 企业 级 的 目标 分 


解 为 较 低 层次 的 操作 型 目标 。 
。 制定 基于 顾客 需求 的 目标 ”通过 将 BSC 和 六 西格玛 方法 结合 起 来 ， 确 保 操作 型 目标 能 够 直接 影响 
顾客 的 期 望 。 


。 利用 六 西格玛 方法 实施 战略 项 目 利用 六 西格玛 方法 ， 驱 动产 品 和 流程 质量 的 提升 。 
。 始终 用 一 种 形式 来 实现 商业 目标 ”以 流程 的 观点 看 待 组 织 活动 。 六 西格玛 用 户 控制 过 程 中 的 变化 ， 
BSC 包含 了 流程 评价 指标 。 
成 功 将 两 者 合并 起 来 的 企业 指出 ， 他 们 不 明白 为 什么 一 些 企业 只 采用 其 中 的 一 种 办 法 ， 同 时 也 提出 这 
需要 花费 1 年 的 时 间 来 组 织 员工 培训 并 克服 存在 的 文化 和 组 织 障碍 。 
来 源 : Compiled from p. Gupta, Six Sigma Business Scorecard ,2nd ed. , McGraw-Hill Professional , New York ,2006 ; P. Docherty, 
“From Six Sigma to Strategy Execution,” 2005, i- solutionsglobal. com/secure/FromSixSigmaToStrateg _ 
AAC8C. pdf( accessed January 2010) ; and T. Leahy, “The One-Two Performance Punch. ” Business Finance , February 
2005 , businessfinancemag. com/magazine/archives/ article. html? articlelD = 14364 (accessed January 2010). 
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表 3-3 平衡 记分 卡 和 六 西格玛 之 间 的 比较 

















平衡 记分 卡 
战略 管理 系统 绩效 评价 系统 
和 长 期 商业 活动 相关 提供 绩效 的 即时 信息 ， 确 定 驱 动 利润 的 绩效 
用 于 制定 平衡 的 一 套 指标 用 于 确定 度量 值 对 利润 影响 的 一 套 指标 
确定 影响 愿景 和 价值 的 评价 办 法 确定 健康 和 收益 能 力 的 领导 责任 





实现 阑 明 愿 景 /战略 、 沟 通 、 计 划 、 人 制定 目标 、 策 略 包括 所 有 的 商业 过 程 一 一 管理 和 运作 
一 致 性 方案 和 提高 反应 速度 等 关键 管理 过 程 


无 天 明确 地 定义 领导 有 角色， 平衡 顾客 和 企业 内 部 操作 平衡 管理 者 和 员工 角色 关系 ; 平衡 重要 流程 的 成 本 和 收益 关系 


























强调 每 个 度量 目标 强调 每 个 度量 及 不 相关 目标 的 强制 的 增长 率 
核心 是 增长 核心 是 利益 最 大 化 

充满 战略 内 容 充满 对 利益 的 执行 情况 

组 成 度量 值 的 管理 系统 基于 流程 管理 的 管理 系统 


资料 来 源 : P. Gupta, Six Sigma Business Scorecard, 2nd ed. , McGraw-Hill Professional, New York, 2006. 
3.7 节 复 习题 


1. 有 效 的 绩效 管理 系统 的 特征 有 哪些 ? 
2. BSC 的 4 个 观点 是 什么 ? 

3. BSC 中 的 “平衡 ” 指 的 是 什么 ? 

4. BSC 是 如 何 和 企业 的 战略 和 实施 方案 保持 一 致 的 ? 
5. 什么 是 战略 地 图 ? 

6. 什么 是 战略 主题 ? 

7. 什么 是 六 西格玛 ? 

8. DMAIC 模型 有 哪些 基本 过 程 ? 

9. 比较 精益 生产 和 六 西格玛 。 

10. 六 西格玛 成 功 实施 的 方式 有 哪些 ? 
11. 比较 BSC 和 六 西格玛 。 

12. BSC 和 六 西格玛 是 如 何 结合 在 一 起 的 ? 


3.8 BPM 技术 和 应 用 


本 章 开始 介绍 了 BPM 的 概念 ，BPM 包含 的 企业 运营 的 流程 、 方 法 、 度 量 和 技术 ， 对 企业 的 
绩效 进行 度量 、 监 控 和 管理 。3. 3 ~ 3. 8 节 研究 流程 、 度 量 = 
和 方法 。 本 节 介绍 剩 下 的 因素 一 技术 和 应 用 。 | ae. fe an ao. 


最 优 、 战 略 管理 、 报 表 …… 
3.8.1 BPM 架构 s 


术语 系统 架构 包括 系统 逻辑 设计 和 物理 设计 。 远 辑 设计 
包括 系统 的 组 成 元 素 和 各 元 素 之 间 的 交互 关系 。 物 理 设计 是 
指 系统 逻辑 设计 的 实现 方式 以 及 通过 一 些 专业 技术 对 系统 进 
行 部 署 ， 如 网 页 浏览 器 、 应 用 服务 器 、 通 信 协 议 、 数 据 库 
等 。 从 物理 设计 来 看 ， 任 何 特殊 的 绩效 管理 方案 和 实施 都 比 | 
较 复杂 ， 而 逻辑 设计 比较 简单 。 从 逻辑 上 看 ， 一 个 绩效 管理 | 




















源 系统 
ERP, CRM, SCM, 、 遗 留 系统 、 


系统 由 以 下 3 个 部 分 或 层次 组 成 (如 图 3-7 所 示 ): 
电子 数据 表 、 分 析 程 序 、 外 部 数据 


。 绩效 管理 应 用 ”该 层 通 过 变换 用 户 交 互 和 源 数据 ， 
形成 企业 的 预算 、 计 划 、 预 测 、 报 表 、 分 析 等 信 图 3-7 ”绩效 管理 逻辑 系统 架构 
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息 ， 支 持 企业 BPM。 这 种 特殊 应 用 使 得 不 同 组 织 之 间 实 施 一 个 又 一 个 BPM， 这 主要 取决 
于 他 们 的 需求 和 战略 目标 。 任 何 BPM 方案 应 当 是 足够 灵活 和 可 扩展 的 ， 从 而 使 组 织 找到 
适合 自己 的 路 线 ， 包 括 选 择 何 种 软件 以 及 如 何 运行 该 软件 。 特 别 要 说 的 是 ， 实 际 上 ， 有 
些 BPM 应 用 程序 经 常 被 使 用 。 

。 信息 中 心 ” 大 多 BPM 系统 需要 从 各 种 不 同 的 源 系 统 (如 ERP R CRM AS) 中 提取 数据 
和 信息 ， 而 且 获 取 数 据 和 信息 的 方式 多 种 多 样 。 然 而 ， 一 个 设计 良好 的 BPM 系统 通常 将 
这 些 数据 进行 集中 映射 和 存储 ， 一 般 存储 在 数据 仓库 或 数据 集 市 中 。 l 

。 RRR ”该 层 包含 了 向 BPM 信息 库 中 提供 信息 的 所 有 数据 源 。 对 大 多 数 企 业 来 说 ， 该 层 
包含 了 财务 和 企业 其 他 系统 的 运营 数据 。 一 个 完整 的 解决 方案 还 可 以 任意 访问 企业 的 外 
部 信息 ， 如 行业 趋势 、 竞 争 对 手 情报 ， 从 而 对 企业 的 绩效 进行 更 深入 地 分 析 。BPM 系统 
很 少 直接 访问 这 些 源 数 据 ， 一般 要 对 数据 进行 提取 、 转 换 和 加 载 ， 企 业 利用 集成 系统 或 
网 络 服 务 ， 将 这 些 数据 转换 和 连接 到 信息 库 中 。 

BPM 应 用 ”BPM 是 一 个 包含 了 各 种 应 用 的 闭环 系统 ， 涵 盖 了 从 战略 规划 到 运营 计划 ， 从 预 
算 到 监控 、 到 调整 再 到 实施 的 内 容 。 尽 管 BPM 包含 的 流程 范围 很 广 , 但 Gartner Group 公司 的 行 
业 分 析 家 将 BPM 的 主要 流程 分 为 以 下 几 个 方面 (Chandler et al. ，2009): 

1. 战略 管理 ”战略 管理 应 用 为 企业 的 战略 制定 、 建 模 和 监控 提供 了 一 套 方案 ， 从 而 提高 企 
业 的 绩效 ,促进 企业 决策 的 制定 和 合作 。 这 些 方案 通常 与 企业 的 战略 地 图 或 方法 ( 如 平衡 记分 
F) 相关 。 战 略 管理 包含 了 以 下 能 力 : 

。 在 场景 模型 中 利用 “基本 情况 ”或 “主动 型 ”的 方法 对 高 层次 的 商业 计划 进行 制定 和 评估 。 

。 在 目标 管理 中 ， 应 用 项 目 管理 工具 便于 负责 的 管理 人 员 实 施 战略 中 的 任务 。 

© 记分 卡 和 战略 地 图 记录 企业 的 战略 、 目 标 和 各 项 任务 ， 评 估 绩 效 ， 并 提供 有 效 的 、 面 向 

企业 沟通 的 合作 环境 。 

。 仪表 盘 〈 或 驾驶 舱 ) 集中 表现 了 各 种 显示 度量 指标 和 关键 绩效 指标 ， 通 过 对 这 些 指标 进 

行 观察 ， 从 而 利用 BI 工具 对 这 些 指标 进行 深入 分 析 。 

BPM 套件 至 少 能 够 提供 仪表 盘 功能 ， 以 用 户 容 易 理 解 的 方式 体现 出 企业 的 绩效 现状 。 一 些 
较 复杂 组 织 将 BPM 的 记分 卡 软件 与 其 他 BPM 软件 相关 联 ， 从 而 实施 企业 战略 地 图 。 因 此 ， 战 略 
管理 成 为 BPM 中 一 个 越 来 越 重 要 的 功能 。 

2. 预算 、 计 划 和 预测 ”这些 功能 可 帮助 企业 进行 预算 、 计 划 和 预测 。 它 包括 了 短期 的 财务 预 
算 、 长 期 计划 和 高 层 战 略 规划 。 这 些 功 能 以 工作 流 的 形式 进行 预算 /计划 的 制订 、 提 交 和 核实 ， 而 
且 还 具有 动态 预测 和 制订 方案 的 功能 。 它 们 也 应 该 支持 连接 操作 规划 和 财务 预算 的 企业 规划 模型 。 
另外 ， 它 们 也 能 够 与 特殊 领域 的 应 用 ， 如 供应 链 规划 ， 实 现 数据 共享 。 

3. 财务 合并 ”该 功能 使 组 织 将 不 同 会 计 准 则 和 联邦 法 规 下 的 财务 数据 进行 统一 、 合 并 、 简 化 和 聚 
集 。 这 些 应 用 都 是 BPM 的 基础 ， 因 为 它们 需要 审计 ， 并 与 其 他 BPM 应 用 分 享 的 企业 级 财务 信息 。 

4. 收益 模型 和 最 优化 ”该 功能 包含 了 作业 成 本 法 (Activity Based Costing，ABC ) 。 该 方法 对 
组 成 总 成 本 的 每 个 作业 成 本 进行 高 层次 的 决定 和 分 配 。 作 业 管 理 帮助 用 户 模拟 出 不 同 成 本 对 收 
益 的 影响 和 资源 分 配 战略 有 些 应 用 程序 除了 具备 传统 的 ABC 所 具有 的 功能 外 ， 还 从 包装 成 本 模 
型 、 捆 绑 销售 、 定 价 和 销售 渠道 战略 来 分 配 收入 。 

5. 财务 、 法 定 和 管理 报告 BPM 应 用 程序 需要 专业 的 报表 工具 将 财务 状况 按 标准 的 格式 输 
出 。 这 些 输出 要 符合 公认 会 计 准 则 (Generally Accepted Accounting Principle, GAAP) 中 的 规则 ， 
如 美国 的 公认 会 计 准则 或 国际 财务 报表 标准 。 同 时 ， 应 用 程序 中 还 包含 了 可 视 化 的 技术 ， 这 些 可 
视 化 技术 可 应 用 于 从 预算 到 目标 等 不 同方 面 的 分 析 ， 如 双 曲 线 树 。 
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3.8.2 商业 BPM 套件 


BPM 软件 厂商 提供 的 套件 至 少 可 以 实现 3 个 核心 的 功能 (如 : 预算 、 计 划 和 预测 ; 收益 模 
型 和 最 优化 ; 记分 卡 、 财 务 合并 以 及 法 定 财 务 报表 ) 。 根 据 Gartner (Chandler et al. , 2009) 的 估 
计 ，2007 年 BPM 软件 的 许可 证 费用 和 维护 费 几 乎 达到 了 18 亿美 元 ， 比 2006 年 增加 了 19%. +H 
比 之 下 ， 国 际 数据 公司 (Intemational Data Corporation, IDC) 表明 ，2007 年 BPM 软件 市 场 交易 
额 大 约 为 20 亿美 元 ， 预 计 2012 年 将 达到 32 亿美 元 。 (Vessette and McDonough, 2008) 如 此 来 
看 ， 每 年 的 增长 率 超过 了 10%, 

这 种 增长 的 主要 原因 是 更 强大 的 分 析 系 统 代 替 了 电子 表格 。 除 了 部 分 行业 部 门 以 外 ，BPM 
几乎 和 所 有 的 组 织 相关 ， 因 为 所 有 的 组 织 都 向 财务 总 监 和 财务 小 组 提供 业务 分 析 〈 如 ， 和 盈利 分 
析 和 财务 计划 绩效 ) 和 管理 信息 (如 财务 管理 报表 、 预 算 和 法 定 报告 ) 的 信息 ， 从 而 将 这 些 管 
理 信息 传递 给 领导 小 组 ， 这 也 是 BPM 的 主要 功能 。 

在 过 去 的 3 ~4 年 间 ，BPM 领域 的 主要 变化 是 BPM 软件 厂商 的 合并 。 过 去 的 几 年 中 ，BPM 
软件 市 场 被 一 些 单 一 业务 厂商 (如 Hyperion、Cognos 和 SAS) 所 占有 。 这 是 在 Oracle 兼并 Hyperi- 
on, IBM 兼并 Cognos， 以 及 SAP 兼并 Business Object 之 前 。 现 如 今 ， 该 市 场 领 域 被 一 些 大 的 厂商 
所 占有 ， 如 Oracle Hyperion, IBM Cognos, SAP Business Object， 以 及 Infor 和 SAS， 这 些 厂商 占领 
了 BPM 市 场 70% 的 份额 。 

如 同 对 它 所 关注 的 许多 软件 市 场 一 样 ，Gartner 为 CPM 套件 供应 商 创立 了 一 个 魔力 象限 
(Chandler et al. ，2009) 。 象 限 依据 各 供应 商 的 执行 能 力 和 视角 的 全 面 性 进行 定位 ， 从 这 两 个 角度 
进行 组 合 便 得 到 了 4 种 类 型 的 供应 商 ( 见 表 3-4) 。 根 据 Cart- w34 Gartner 的 魔力 象限 








ner 的 这 种 方法 ，Oracle Hyperion, SAP Business Object IBM 视角 
Cognos 都 处 于 领导 地 位 。 由 此 可 知 ， 这 些 大 供应 商 引领 着 执行 有 限 强大 
BPM 市 场 。 强大 挑战 者 领导 者 


能 被 Gartner 魔力 象限 所 认同 的 BPM 套件 至 少 包含 了 3 个 BR RRR 
BPM 基本 应 用 ， 也 就 是 说 许多 供应 商 提供 的 软件 只 包含 少量 的 功能 。 表 3-5 列 出 了 在 象限 中 处 于 
领导 地 位 的 供应 商 所 提供 的 BPM 套件 功能 。 


表 3-5 SAP, Oracle 和 1IBM 绩效 管理 软件 的 功能 




































SAP Business Object Oracle Hyperion IBM Cognos 
企业 绩效 管理 绩效 管理 BI 和 财务 绩效 管理 

战略 管理 | ”战略 管理 战略 性 财务 、 绩 效 记分 卡 、 计 划 BI 记分 卡 、BI 分 析 、 计 划 

预算 、 计 划 和 预测 商业 计划 和 合并 计划 | #8 

财务 合并 | ”财务 合并 、 公 司 间 的 协作 财务 管理 控制 

收益 模型 和 最 优化 收益 和 成 本 管理 收益 和 成 本 管理 

财务 、 法 定 和 管理 业务 对 象 、 可 扩展 商业 报 绩效 记分 卡 BI 报表 、BI 记分 卡 、BI 
报表 告 语言 发 布 | 仪表 盘 

绩效 管理 费用 、 供 应 链 绩 主要 财产 计划 、 工 作 人 数 计 
| 划 、 集 成 经 营 计划 
数据 管理 应 用 财务 信息 管理 a ee 





来 源 : Compiled from sap. com/solutions/sapbusinessobjects/large/enterprise- performance- management/index. epx 
(accessed January 2010); oracle. com/appserver/businessintelligence/hyperion- financial- performance- man- 
agement/hyperion-financial-performance-management. html (accessed January 2010) ; ibm. com/software/da- 
ta/cognos (accessed January 2010) . 
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3.8.3 BPM 市 场 与 BI 平台 市 场 对 比 


除了 BPM 市 场 以 外 ，Gartner 同样 密切 关注 BI 平台 市 场 。 根 据 Gartner 的 观点 ，BI 平台 不 是 一 个 
简单 的 BI 观望 者 ， 而 是 包含 了 各 种 综合 的 功能 。 按 照 Gartner，BI 包含 了 以 下 功能 (McKay, 2009); 
。 BI 基础 架构 
元 数据 管理 
BI 应 用 开发 
工作 流 和 协同 管理 


Microsoft Office 集成 
OLAP 
高 级 视图 
预测 模型 和 数据 挖掘 
e 记分 卡 
和 BPM 市 场 相 比 ，BI 平 台 市 场 的 规模 更 大 。 从 2009 年 绩效 管理 市 场 规模 的 各 种 分 析 数 据 可 
知 ，BPM 交易 额 为 20 亿美 元 到 35 亿美 元 之 间 ， 每 年 的 增长 率 至 少 为 23% 。 相 比 之 下 ，BI 软件 
市 场 2007 年 超过 了 50 亿美 元 ， 每 年 的 增长 率 超 过 10% 。 
然而 ， 所 有 处 于 领导 地 位 的 BPM 软件 供应 商 也 提供 HI 平台，BI 平 台 市 场 比 BPM 市 场 的 差 
异性 更 大 。2009 年 ，Gartner 的 魔力 象限 中 的 BHI 平台 “领导 者 ”不 仅仅 包含 了 BPM 软件 的 领导 
者 (IBM, Oracle 和 SAP) 还 包含 了 Information Builders, Microsoft, SAS 和 MicroStrategy。 这 一 象 
限 中 所 有 供应 商 的 BI 平台 都 有 功能 强 的 产品 ， 这 些 产品 在 使 用 和 分 析 能 力 上 稍 有 差异 。 在 这 些 
领军 产品 中 ，MicroStrategy 和 Teradata 大 学 (teradatastudentnetwork. com) 合作 ， 使 大 学 生 在 教 
育 和 研究 中 应 用 他 们 提供 的 产品 ， 并 因此 出 名 。 


3. 8 节 复 习题 


1. 什么 是 逻辑 系统 架构 ? 

2. BPM 架构 的 3 个 关键 组 成 部 分 是 什么 ? 

3. 描述 BPM 应 用 的 主要 种 类 。 

4. 在 过 去 的 3 年 到 4 年 里 ，BPM 市 场 发 生 了 什么 变化 ? 

5. Gartner 的 魔力 象限 有 哪 几 个 基本 类 型 ? 哪些 厂商 是 BPM 市 场 的 领导 者 ? 
6. 什么 是 BIE G? 在 Gartner 的 BI 魔力 象限 中 ， 哪 些 厂 商 是 市 场 领导 者 ? 


3.9 ”绩效 仪表 盘 和 记分 卡 


记分 卡 和 仪表 盘 不 是 全 部 也 是 绝 大 多 数 软件 中 应 包括 的 组 件 ， 如 绩效 管理 系统 、 绩 效 评 
价 系统 、BPM 套件 和 BI 平台 。 仪 表盘 和 记分 卡 两 者 都 将 重要 信息 集中 可 视 化 显示 在 一 个 独立 
的 界面 上 ， 因 此 ， 通 过 简单 的 浏览 就 可 以 理解 这 些 信息 。 图 3-8 是 一 个 典型 的 仪表 盘 示例 。 该 
仪表 盘 上 列 出 了 一 个 虚拟 软件 公司 的 关键 绩效 指标 ， 该 公司 为 软件 开发 人 员 提 供 了 专业 化 的 
图 表 和 可 视 化 的 组 件 。 该 公司 通过 网 页 和 在 网 站 发 布 横幅 广告 的 形式 来 增加 网 站 主页 上 的 访 
问 量 。 从 仪表 盘 上 可 以 看 出 ， 通 过 “The Code House” 网 站 发 布 的 横幅 广告 去 访问 该 公司 所 占 
的 比例 最 大 ， 而 且 “The Code House” 网 站 的 点 击 率 最 大 (也 就 是 说 ， 该 软件 公司 的 横幅 广告 


im 
= 
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在 “The Code House” 网 站 上 每 出 现 100 次 ， 就 会 有 稍微 多 于 2 个 访问 者 点 击 该 广告 ) 。 大 体 
上 ， 仪 表盘 的 网 站 横幅 广告 上 显示 总 共有 超过 2.05 亿 次 点 击 ， 有 220 万 访问 者 进入 公司 主 
页 ， 其 中 有 120 万 访问 者 进入 产品 介绍 界面 ， 并 且 最 终 有 100 万 访问 者 下 载 了 该 公司 产品 。 
该 统计 数据 表明 了 ， 截 止 到 此 时 “通过 访问 网 页 广告 的 用 户 ” 和 “下 载 用 户 ” 呈 现 上 升 的 趋 
势 ， 超 过 了 企业 的 目标 值 (如 ， 在 阴影 区 以 上 )， 每 点 击 一 次 的 成 本 为 80 美 分 。 这 个 有 特色 
的 仪表 盘 能 够 使 最 终 用 户 看 到 不 同 的 横幅 广告 统计 ， 和 按时 间 段 或 产品 进行 的 度量 〈 图 3-8 
中 右上 方 的 下 降 )。 
















摘要 市 场 成 本 “| 网 站 旗帜 广告 


` 用 右边 的 下 拉 列 表 选 择 时 间 和 广告 时 间 : [[YID] ”Tv] 广告 : [[ALL Banners] [y] 

















广告 排行 榜 〈 所 有 广告 ) 旗帜 广告 统计 : 





















205 605 792 


网 站 主页 访问 量 : 

2 246 039 
产品 界面 访问 量 : — 
1 259 683 


TRE: © 
1022 SA 





点 击 率 〈《 所 有 广告 ) 


























图 3-8 仪表 盘 示 例 
AR: Dundas 数据 可 视 化 公司 ,dundas. com/Gallery/Flash/Dashboards/index. aspx( accessed January 2009). 


3.9.1 仪表 盘 和 记分 卡 


在 商业 刊物 中 ， 仪 表盘 和 记分 卡 是 可 以 互相 替代 的 ， 尽 管 如 此 ， 可 以 从 表 3-4 中 看 出 ， 各 个 
BPM 厂商 均 提 供 独立 的 仪表 盘 和 记分 卡 应 用 程序 。 虽 然 仪 表盘 和 记分 卡 有 许多 相同 之 处 ， 但 两 
者 也 存在 差异 。 一 方面 ， 经 理 、 管 理 者 和 员工 用 记分 卡 制订 战略 计划 ， 从 而 成 功 实施 战略 方向 和 
目标 。 最 典型 的 应 用 就 是 平衡 记分 卡 。 另 一 方面 ， 仪 表盘 应 用 于 实施 和 作业 层次 上 。 管 理 者 、 经 
理 和 作业 人 员 用 作业 仪表 盘 工 具 管 理 每 周 、 每 日 甚至 是 每 小 时 的 细节 性 的 作业 绩效 。 例 如 ， 作 业 
仪表 盘 可 用 于 监控 产品 质量 。 同 时 ， 管 理 人 员 和 员工 用 战术 仪表 盘 来 监控 战术 实施 。 例 如 ， 战 略 
仪表 盘 可 用 于 市 场 活动 或 营销 渠道 战略 的 制定 。 


3. 9.2 ”仪表 盘 设计 
仪表 盘 已 经 不 是 一 个 新 的 概念 ， 它 的 根源 至 少 可 追溯 到 20 世纪 80 年 代 的 高 级 管理 人 员 信 息 系 
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统 。 现 如 今 ， 仪 表盘 的 使 用 很 普遍 。 例 如 ， 几 年 前 弗 雷 斯 特 研究 公司 (Forrester Research) 估算 ， 
占 世 界 上 40% 的 2 000 个 大 型 企业 中 使 用 该 技术 ， 仪 表盘 开发 网 站 (dashboardspy. com/about ) 
提供 了 更 多 关于 广泛 使 用 它们 的 证 据 (Ante and McGregor，2006) 。 该 网 站 对 各 种 规模 的 企业 、 各 行 
业 、 公 益 单 位 和 政府 机 构 等 拥有 的 成 千 上 万 个 BI 仪表 盘 、 记 分 卡 和 BI 接口 进行 了 描述 和 截图 。 本 
章 末 的 案例 详细 介绍 了 该 网 站 上 最 新 的 一 个 仪表 盘 组 件 一 一 纽约 城市 绩效 报告 系统 。 

根据 BI 领域 ， 特 别 是 仪表 盘 领 域 的 专家 Eckerson (2006) 的 观点 ， 仪 表盘 最 典型 的 特征 是 
它 的 3 层 信息 结构 : 

1. 监管 ”利用 图 表 和 摘要 资料 进行 核心 绩效 监管 。 

2. 分 析 对 数据 进行 多 角度 分 析 ， 找 出 问题 的 根源 。 

3. 管理 ”对 详细 的 作业 数据 进行 分 析 ， 找 出 解决 问题 的 行动 。 

因为 这 些 层 次 ， 仪 表盘 的 一 个 界面 中 要 包含 许多 信息 ， 根 据 Few (2005 ) ,“ 仪 表盘 设计 最 根 
本 的 目的 是 在 一 个 简单 的 界面 上 能 够 清楚 、 明 了 地 展示 出 所 需要 的 信息 ， 而 且 这 些 信息 容易 被 
用 户 理解 。” 为 了 使 用 户 更 容易 理解 这 些 数 据 ， 需 要 将 这 些 数 据 放置 在 一 个 背景 中 进行 分 析 。 可 
以 通过 将 一 些 基础 数据 或 目标 数据 进行 比较 分 析 ， 判 断 这 些 数 据 质 量 的 优 劣 ， 预 示 发 展 趋势 的 
FR, 或 者 用 专业 化 的 分 析 工 具 进 行 比较 和 评估 背景 。 

BPM 软件 中 包含 了 一 些 典型 的 对 比 项 ， 如 : 历史 值 、 预 测 值 、 目 标 值 、 标 准 值 或 者 平均 值 ， 
对 同一 度量 值 进行 实例 应 用 分 析 ， 并 与 其 他 的 度量 值 进行 比较 分 析 ( 例 如， 收入 与 成 本 的 比 
较 )。 在 图 3-8 中 ， 各 种 关键 绩效 指标 分 别 与 该 指标 的 目标 值 进行 对 比分 析 ， 收 入 与 市 场 成 本 对 
比 ， 各 阶段 的 销售 数据 与 另 一 阶段 的 销售 数据 进行 对 比 。 

尽管 对 度量 值 进行 了 比较 分 析 ， 但 专业 化 地 指出 数据 质量 的 好 坏 以 及 数据 的 发 展 趋势 是 很 
重要 的 。 如 果 没 有 这 些 评 价 ， 决 定数 据 质量 或 结果 的 好 坏 要 花费 大 量 的 时 间 。 特 别 地 ， 无 论 是 专 
业 的 可 视 化 对 象 〈 例 如 ， 交 通信 号 灯 ) ， 还 是 可 视 化 的 属性 值 ( 例 如， 黄色 标志 ) ， 都 可 以 认为 
是 可 以 评价 的 内 容 。 再 次 回 到 图 3-8 的 仪表 盘 ， 颜 色 编 码 用 于 指定 关键 绩效 指标 的 好 差 ， 绿 色 箭 
头 表示 不 同 阶段 销售 额 是 上 升 还 是 下 降 的 趋势 ， 以 及 这 种 趋势 的 好 坏 。 尽 管 该 例 中 没有 使 用 其 
他 颜色 ， 例 如 红色 或 橘 色 ， 但 也 可 以 体现 出 不 同 度量 对 象 的 属性 。 


3.9.3 ”仪表 盘 展示 的 内 容 


尽管 绩效 仪表 盘 和 平衡 绩效 记分 卡 不 同 ， 但 是 两 者 也 有 相同 之 处 。 首 先 ， 它 们 均 适 用 于 大 型 
的 BPM 或 绩效 评价 系统 中 。 这 说 明 它们 是 BI 的 一 个 架构 或 者 可 以 作为 大 系统 的 绩效 管理 架构 。 
其 次 ,所 有 的 仪表 盘 和 记分 卡 均 有 以 下 功能 : 
使 用 可 视 化 组 件 〈 如 图 表 、 柱 状 条 、 折 线 、 仪 表 、 计 量 器 、 停 止 信号 灯 ) 突出 数据 或 需 
要 处 理 的 异常 ， 使 人 一 目 了 然 。 
对 用 户 来 说 简明 易 懂 ， 这 就 意味 着 即使 不 需要 大 量 培训 也 能 够 容易 使 用 。 
。 将 不 同系 统 的 数据 整合 为 一 个 能 够 反映 商业 信息 、 独 立 的 、 概 括 性 的 图 形 界面 。 
© 能 够 实现 对 数据 进行 挖掘 或 钻 取 ， 发 现 潜在 的 数据 资源 或 报表 ， 从 而 为 用 户 提供 更 多 的 、 
潜在 的 比较 和 评价 内 容 的 细节 。 
它们 呈现 了 动态 的 、 真 实 世 界 的 、 及 时 的 数据 更 新 ， 使 终端 用 户 时 刻 能 够 看 到 商业 数据 
的 最 近 变 化 情况 。 
。 它们 几乎 不 需要 用 户 编码 就 可 以 实施 、 部 署 和 维护 。 


3.9.4 数据 可 视 化 
数据 可 视 化 定义 为 “对 数据 探索 、 数 据 理解 和 数据 交流 的 可 视 化 描述 ”(Few，2008 ) 。 这 与 
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信息 图 表 、 信 息 可 视 化 以 及 统计 图 表 相关 。 最 近 ， 应 用 于 BPM 和 BI 中 的 数据 可 视 化 包含 了 图 
表 、 图 像 以 及 一 些 可 应 用 于 记分 卡 和 仪表 盘 中 的 其 他 可 视 化 元 素 〈 例 如 ， 停 止 信号 灯 和 测量 仪 
器 ) Seth Grimes (2009) 指出 ， 数 据 可 视 化 技术 和 工具 的 应 用 呈现 上 升 的 趋势 ， 这 使 得 BPM 和 
BI 系统 的 用 户 能 更 好 地 “交流 联系 ， 增 加 历史 背景 ， 发 掘 隐藏 的 业务 关系 ， 并 且 能 够 通过 讲述 
有 说 服 性 的 故事 来 澄清 和 号 召 行动 

在 BPM 和 BI 应 用 中 ， 可 视 化 面临 的 主要 难题 是 对 复杂 的 大 型 数据 集 进行 直观 地 、 多 维度 、 
多 种 方式 地 分 析 。 这 些 应 用 中 的 大 部 分 图 表 、 图 像 和 其 他 可 视 化 工具 通常 包含 了 2 个 维度 ， 有 时 
是 3 个 ， 以 及 一 些小 型 的 数据 集 。 这 些 系 统 的 数据 存储 在 一 个 数据 仓库 中 。 这 些 数据 仓库 至 少 包 
ET: 一 些 维度 (例如, 产品、 地址、 组 织 结构 、 时 间 ) 、 度 量 值 以 及 成 千 上 万 个 数据 单元 。 为 
了 解决 这 些 问题 ， 许 多 研究 人 员 开 发 了 一 些 新 的 数据 可 视 化 技术 。 

其 中 的 一 些 新 技术 对 图 表 和 图 像 进行 扩展 ， 例 如 ，Gapminder 网 站 (gapminder. org) 上 的 气泡 
图 ， 提 供 了 对 世界 健康 和 人 口 数 据 进行 多 维 分 析 的 功能 。 图 3-9 描述 了 该 网 站 上 展示 的 数据 种 类 (这 
是 临摹 图 ,不 是 网 站 上 的 真实 图 ) 。 表 面 上 ， 这 些 特殊 数据 表现 了 世界 上 不 同 国家 的 生活 期 望 和 人 口 出 
生 率 之 间 的 关系 。 每 个 气泡 代表 一 个 国家 ， 气 泡 的 尺寸 代表 国家 的 人 口 规模 ， 每 个 颜色 表示 这 些 国家 
所 在 的 洲 。 图 3-9 下 方 的 菜单 可 供用 户 选 择 分 析 的 年 份 ， 点 击 按钮 可 以 显示 不 同年 份 时 的 变化 。 
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图 3-9 人 口 数据 的 气泡 图 


其 他 一 些 技术 包含 了 较 新 的 可 视 化 格式 ， 如 ， 美 国 马里 兰州 大 学 的 Ben Shneiderman 提出 的 
树 图 。 树 图 按 嵌 套 的 矩形 格式 将 数据 分 层 ( 见 图 3-10)。 因 此 ， 这 非常 适合 于 展示 数据 仓库 中 包 
含 多 个 维度 的 数据 。 每 层 的 一 个 维度 可 以 用 一 个 矩形 框 表示 ,该 框 和 一 个 更 小 的 矩形 框 相互 关 
联 ， 这 个 小 的 矩形 框 是 父 数据 的 一 个 子 数据 〈 子 分 支 ) 。 每 个 矩形 框 和 一 个 特定 的 度量 值 (通常 
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ERM) 相对 应 。 例 如 ， 一 个 树 图 可 供 一 个 软件 公司 分 析 产 品 说 明 书 中 的 缺陷 。 在 顶部 ， 珑 形 
框 展 示 了 不 同 种 类 产品 的 问题 数量 。 在 每 个 矩形 框 中 ， 小 的 平 铺 的 矩形 框 代 表 了 这 些 种 类 中 单 
独 的 一 个 产品 出 现 的 所 有 问题 。 另 外 ， 用 和 矩形 框 的 颜色 表示 正在 使 用 的 产品 说 明 书 在 市 场 上 的 
时 间 长 度 。 总 之 ， 树 图 的 方式 能 帮助 用 户 发 现 其 他 技术 所 不 能 发 现 的 类 型 。 而 且 ， 由 于 树 图 对 空 
间 的 有 效 使 用 ,使 其 一 次 能 够 展现 成 千 上 万 个 条 目 。 












































图 3-10 呼叫 中 心 的 数据 树 图 


其 他 的 数据 可 视 化 技术 可 参考 网 页 链接 : webdesignerdepot. com/2009/06/50- great- exam- 
ples-of-data- visualization， 以 及 smashingmagazine. com/2007/08/02/- data- visualization- mod- 
ern-approaches。Grimes (2009) 给 出 了 一 些 重要 的 擅长 于 BPM 和 BI 应 用 的 数据 可 视 化 厂商 
(例如 ，tableausoftware. com) 的 清单 及 描述 。 


3. 9 节 复 习题 


. 记分 卡 和 仪表 盘 主 要 区 别 有 哪 些 ? 

. 作业 仪表 盘 和 战术 仪表 盘 有 什么 区 别 ? 

. 仪表 盘 每 层 包 含 的 信息 是 什么 ? 

. 为 仪表 盘 的 度量 值 选择 展示 工具 的 标准 有 哪些 ? 

- 一 个 设计 优秀 的 仪表 盘 有 哪些 特征 ? 

. 什么 是 数据 可 视 化 ? BPM 和 BI 中 展示 数据 遇 到 的 主要 问题 有 哪些 ? 


本 章 重点 


© BPM 是 指 对 企业 的 绩效 进行 度量 、 监 控 和 管理 的 过 程 、 方 法 、 度 量 和 技术 。 
。 BPM 是 BI 的 产物 ,包含 了 许多 BI 中 的 知识 、 应 用 和 技术 。 


Nn fF WN 王 
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BI 成 为 了 描述 访问 、 分 析 、 报 告 企业 数据 相关 技术 的 术语 。 

BI 的 实践 和 软件 成 为 全 面 的 BPM 解决 方案 的 主要 部 分 。 

BI 和 BPM 的 主要 区 别 在 于 BPM 通常 是 战略 驱动 的 。 

BPM 是 一 个 从 决策 到 执行 并 使 企业 的 绩效 达到 最 优 的 闭环 过 程 。 

BPM 的 关键 步骤 是 战略 、 计 划 、 监 督 、 实 施 和 调整 。 

战略 回答 了 “我 们 未 来 要 走向 哪里 ”的 问题 。 

几 十 年 的 研究 使 战略 和 执行 之 间 的 差距 加 大 。 

战略 和 执行 之 间 的 差距 存在 于 沟通 、 结 盟 、 焦 点 和 资源 中 。 

作业 计划 和 战术 计划 主要 强调 “我 们 如 何 能 通 向 未 来 " 。 

作业 计划 中 的 策略 和 方案 必须 要 服从 于 战略 计划 的 方向 和 目标 。 

一 个 组 织 的 战略 目标 和 关键 指标 应 当 和 企业 的 自 上 而 下 的 有 形 资产 和 无 形 资产 分 配方 式 相 匹配 。 
监督 强调 了 “我 们 正在 如 何 做 的 ”。 

平衡 记分 卡 、 绩 效 仪表 盘 、 项 目 监管 系统 、 人 力 资源 系统 和 财务 报表 系统 都 归属 于 诊断 控制 系统 。 
多 数 监管 强调 负 差 异 ， 忽 视 了 最 基本 的 假设 和 战略 。 

传统 的 计划 承受 着 各 种 偏见 ， 包 括 证 实 、 相 近 因素 、 成 功 的 示例 及 社会 或 政治 偏见 。 

发 现 -驱动 计划 提供 了 系统 性 地 发 现 问题 假设 的 方法 ， 否 则 这 些 问 题 就 会 遗留 在 计划 和 监管 过 程 中 。 
新 项 目 和 冒险 的 失败 率 在 60% ~80% 之 间 。 

一 般 企 业 中 企业 管理 人 员 制 订 计 划 和 报告 ， 几 乎 没有 时 间 回 顾 战 略 的 观点 ， 决 定 什 么 应 该 按照 不 同 
方法 的 去 做 ， 并 相应 地 修改 计划 。 

绩效 评价 系统 通过 将 战略 目标 和 实际 进行 对 比 ， 来 帮助 管理 者 跟踪 战略 的 实施 情况 。 

财务 数据 作为 绩效 评价 系统 的 核心 工作 所 遇 到 的 困难 已 经 很 明确 。 

“运营 一 个 工厂 ”度量 标准 和 “ 按 战略 执行 ”度量 标准 有 区 别 。 

绩效 评价 源 于 企业 或 业务 战略 ， 以 及 实现 这 些 战略 的 关键 业务 过 程 。 

最 流行 、 最 常用 的 绩效 管理 软件 是 平衡 记分 卡 。 

BSC 的 核心 是 按照 组 织 战 略 方案 对 业绩 进行 评价 比较 。 

BSC 作为 一 个 评价 绩效 的 方法 ， 克 服 了 只 关注 财政 上 的 系统 限制 。 

按 日 历 驱 动 的 财务 报告 是 绩效 评价 系统 的 一 个 重要 组 件 。 

BSC 作为 一 个 战略 性 的 管理 方法 ， 使 组 织 能 够 将 实施 方法 和 战略 保持 一 致 。 

在 BSC 中 ， 企 业 战 略 地 图 展现 了 企业 战略 目标 和 各 个 目标 之 间 的 关联 。 

多 数 企 业 利用 六 西格玛 作为 流程 改进 方法 ， 使 企业 对 运营 过 程 进行 详细 检查 、 指 出 存在 问题 并 进行 补救 。 
六 西格玛 绩效 管理 方法 的 主要 目的 是 减少 企业 运营 过 程 中 的 缺陷 ， 使 每 百 万 次 采样 数 的 缺陷 率 达 到 零 。 
六 西格玛 利用 DMAIC 的 流程 ， 形 成 一 个 闭环 的 商务 模型 ， 包 含 了 对 流程 的 定义 、 测 量 、 分 析 、 改 
进 、 控 制 。 

近 几 年 ， 人 们 开始 关注 六 西格玛 方法 和 精益 战略 之 间 的 关联 。 

精益 生产 是 指 减少 非 增 值 活 动 和 浪费 ， 然 而 六 西格玛 的 核心 是 减少 不 一 致 ， 提 高 流程 的 一 致 性 。 
通过 将 平衡 记分 卡 和 六 西格玛 一 起 使 用 ， 有 助 于 企业 绩效 管理 。 

一 个 标准 的 BPM 架构 由 多 个 层次 组 成 ， 包 含 了 BPM 程序 、 信 息 中 心 、 不 同 来 源 系统 的 数据 。 
BPM 的 主要 功能 包括 : 战略 管理 ， 预 算 、 计 划 和 预测 管理 ， 财 务 数据 合并 ， 利 润 分 析 和 最 优化 ， 
以 及 法 定 的 财务 管理 报告 。 

在 过 去 的 3 ~4 年 间 ，BPM 市 场 的 最 大 变化 是 BPM 厂商 的 合并 。 

记分 卡 和 仪表 盘 几 乎 是 绩效 管理 系统 、 绩 效 评价 系统 和 BPM 套件 中 都 包含 的 组 件 。 

尽管 记分 卡 和 仪表 盘 都 提供 了 可 视 化 视图 ， 但 是 两 者 有 明显 区 别 。 

仪表 盘 与 众 不 同 的 地 方 在 于 它 的 3 层 结构 : 监管 、 分 析 和 管理 。 

仪表 盘 设 计 的 根本 问题 在 一 个 简单 的 图 像 上 没有 歧义 地 、 易 于 理解 地 展示 所 有 必要 的 信息 。 

新 的 数据 可 视 化 技术 能 够 帮助 用 户 分 析 BPM 和 BI 应 用 中 大 型 的 、 复 杂 的 多 维 数据 。 
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关键 术语 

Balanced Scorecard (BSC， 平 衡 记 分 卡 ) DMAIC 一 个 闭环 业务 改进 模型 ， 指 定义 、 测 量 、 分 

data visualization 数据 可 视 化 析 、 改 进 、 控 制 $ 个 阶段 

learning 学 习 Key Performance Indicator (KPI， 关 键 绩 效 指标 ) 

strategic goal 战略 目标 performance measurement systemes 绩效 评价 系统 

strategic objective 战略 目的 strategic theme 战略 主题 

Business Performance Management (BPM， 业 务 绩效 管理 ) dashboards 仪表 盘 

diagnostic control system 诊断 控制 系统 Lean Manufacturing 精益 生产 

optimization 最 优化 scorecards 记分 卡 

strategic vision 战略 愿景 Six Sigma 六 西格玛 

strategy map 战略 地 图 system architecture 系统 架构 

Critical Success Factors (CSF， 关 键 成 功 因素 ) 

讨论 题 

1. SAP 的 战略 企业 管理 ，Cognos 的 企业 绩效 管理 以 及 Hyperion 的 业务 绩效 管理 ， 它 们 的 基本 观点 相同 吗 ? 
并 说 明 依 据 。 

2. BPM 包括 了 5 个 基本 过 程 : 战略 、 计 划 、 管 理 、 实 施 和 监控 。 选 择 其 中 的 一 个 过 程 ， 阐 述 可 以 支持 这 个 
过 程 的 软件 工具 和 应 用 的 种 类 。 图 3-1 给 出 了 提示 。 可 以 查阅 Bain 和 Company 的 管理 工具 (bain. com/ 
management_tools/home. asp). 

3. 选择 一 个 上 市 公司 ， 用 该 公司 2008 年 的 年 度 报告 ， 为 2009 年 制定 3 个 财务 战略 目标 。 为 每 个 目标 制定 
一 个 目的 和 指标 。 该 目标 要 和 2008 年 的 财务 状况 保持 前 后 一 致 。 

4. Netflix 的 在 线 视频 下 载 战略 在 多 个 文献 中 被 应 用 ，Netlix 战略 的 基本 目标 是 什么 ? 该 战略 的 主要 假设 条 
件 有 哪些 ? 这 些 假设 条 件 合理 吗 ? 

5. 近 几 年 ， 超 越 预 算 圆桌 会 议 (Beyond Budgeting Round Table，BBRT) (bbrt org) 已 经 向 传统 的 预算 实践 
提出 了 挑战 。 网 上 的 许多 文献 中 提 到 了 超越 预算 圆桌 会 议 的 应 用 ， 在 超越 预算 圆桌 会 议 的 观点 中 ， 对 于 
如 今 的 预算 实践 来 说 哪些 是 错误 的 ? 超越 预算 圆桌 会 议 提出 了 哪些 替代 方法 ? 

6. 描述 BSC 是 如 何 应 用 于 诊断 控制 系统 的 。 

7. 绩效 管理 和 绩效 评价 的 区 别 。 

8. 欧洲 质量 管理 基金 会 (EFQM) 的 “卓越 模型 ”提供 了 可 选 的 绩效 评价 方法 和 管理 架构 。 首 先 ，EFQM 代表 什 
么 意思 ? 其 次 ， 借 助 网 上 资料 ， 说 明 该 框架 的 主要 原则 。 将 该 框架 与 平衡 记分 卡 、 六 西格玛 进行 比较 。 

9. 为 你 感 兴趣 的 战略 目标 制定 一 个 评价 办 法 (可 以 使 用 问题 3 中 制定 的 一 个 目标 ) 。 选 择 评 价 办 法 ， 完 成 


本 章 3.2.1 节 中 的 评价 模型 。 


10. 用 评价 记分 卡 中 的 4 个 观点 ， 为 一 个 假定 公司 制定 一 个 战略 。 阐 述 战略 中 的 一 系列 策略 目标 ， 制 定 一 


个 战略 地 图 ， 描 述 这 些 目 标 之 间 的 关系 。 


11. 比较 DMAIC 模型 和 闭环 BPM 系统 。 
12. 选择 表 3-4Cartner 魔力 象限 中 的 两 个 公司 (除了 SAP, Oracle 和 IBM) ， 说 明 他 们 的 BPM 套件 中 包含 的 


组 件 ， 比 较 他 们 的 绩效 管理 中 组 件 的 应 用 和 功能 。 


练习 
Teradata 大 学 和 其 他 的 动手 练习 题 


1. 


进入 teradatastudentnetwork. com， 选 择 “ Articles (文献 )”， 在 文献 列表 中 找 出 一 个 题 为 “Business/ 
Corporate Performance Management; Changing Vendor Landscape and New Market Targets” 的 文章 ， 在 阅读 该 
文章 的 基础 上 ， 回 答 下 列 问 题 : 

a 该 文章 的 基本 观点 是 什么 ? 


4. 
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b. 该 文章 中 的 “take away” 的 前 提 是 什么 ? 

c. 本 文中 ,关键 路 径 法 中 哪个 功能 或 角色 最 详细 ? 

d. 关键 路 径 法 包含 了 哪些 功能 ? 

e 本 文中 的 关键 路 径 法 与 Gartner 的 关键 路 径 法 包含 的 功能 相 比 ， 两 者 之 间 有 什么 相同 和 不 同 之 处 ? 

f 什么 是 GRC， 它 和 企业 绩效 之 间 有 什么 联系 ? 

g 在 过 去 几 年 中 ， 关键 路 径 法 市 场 定位 的 关键 点 有 哪些 ? 

h. 选择 该 文章 中 提 到 的 2 个 公司 (除了 SAP、Oracle 和 IBM) ， 指 出 每 个 公司 的 关键 路 径 法 战略 是 什么 ? 
作者 对 这 些 战 略 有 什么 看 法 ? 


. 进入 teradatastudentnetwork. com, 4% “Case Studies (案例 学 习 )”， 在 案例 列表 中 找 出 一 个 题 为 


“Real-Time Dashboards at Western Digital” 的 案例 ， 在 阅读 该 文章 的 基础 上 ， 回 答 下 列 问题 : 

a. 什么 是 VIS? 

b. BPM 架构 和 VIS 架构 之 间 有 哪些 相同 点 和 不 同 点 ? 

c. 闭环 BPM 和 OODA 决策 环 之 间 有 哪些 相同 点 和 不 同 点 ? 

d. 系统 中 的 仪表 盘 种 类 有 哪些 ? 它们 是 操作 型 的 还 是 战略 型 的 ， 或 者 说 它们 是 真正 的 仪表 盘 吗 ? 解释 说 明 。 
e. Western Digital 的 VIS 和 仪表 盘 有 哪些 优势 ? 

f 对 于 一 个 将 要 实施 VIS 和 仪表 盘 的 公司 ， 你 能 提出 哪些 建议 ? 


. 进入 Stephen Few 的 博客 “the Perceptual Edge” (perceptualedge. com), f% “Examples (举例 )”， 可 


以 看 到 各 种 仪表 盘 示 例 ， 阅 读 其 中 的 几 个 示例 。 然 后 进入 dundas. com, 选择 “Gallery”， 点 击 “ Digital 
Dashboard (数据 仪表 盘 ) ”， 将 看 到 各 种 仪表 盘 示例 ， 查 看 其 中 的 几 个 示例 。 

a. 这 些 数据 分 别 包 含 了 那些 信息 和 度量 值 ? 根据 这 些 能 采取 什么 行动 ? 

b. 利用 Few 阐述 的 几 个 概念 ， 指 出 这 些 示例 中 的 优 缺 点 。 

利用 一 个 仪表 盘 模 型 展示 出 一 个 上 市 公司 的 财务 状况 ， 该 模型 可 用 文本 文档 或 者 Excel。 用 2 个 上 市 公司 
2008 年 的 数据 说 明 你 指定 的 仪表 盘 的 功能 。 


小 组 作业 和 角色 扮演 


1. 


2. 


几乎 所 有 的 BPM/CPM 供应 商都 在 网 上 提供 了 自己 的 案例 学 习 材 料 ， 小 组 选择 其 中 的 2 个 供应 商 ( 可 从 
Gartner 或 AMR 列表 中 得 到 这 些 供应 商 的 名 称 ) 网 站 。 从 每 个 网 站 中 选 出 2 个 案例 ， 总 结 出 每 个 案例 中 
客户 面临 的 问题 、 解 决 方案 以 及 带 给 用 户 的 好 处 。 

进入 到 仪表 盘 网 站 (enterprise- dashboard. com/sitemap) ， 该 网 站 提供 了 各 种 业务 管理 仪表 盘 。 小 组 选择 
一 个 行业 〈 如 保健 、 银 行 、 航 空 ) ， 举 出 几 个 该 行业 应 用 仪表 盘 的 例子 ， 指 出 每 个 仪表 盘 的 度量 值 及 用 
哪些 方式 展示 的 信息 。 用 所 知道 的 仪表 盘 模 型 ， 为 这 些 信息 制定 一 个 仪表 盘 模 型 。 


网 络 练习 


1. 


2; 


3. 


ZAFAR BEA SE MIF ABE S. Taub 的 调查 报告 “Closeing the Strategy-to- Performance Gap”, CFO Maga- 

zine, 2005 47 2 H 22 H (cfo. com/article. cfm/36869747 f= related) ， 研 究 探索 了 战略 和 实施 方法 之 间 

的 关系 。 根 据 该 调查 ， 绩 效 管理 、 战 略 和 实施 方法 中 哪个 更 重要 ? 为 什么 实施 效果 不 好 ， 采 用 什么 方式 

来 提高 绩效 ? 

进入 到 纽约 城市 管理 报告 网 (nyc. gov/html/ops/html/home/home ) ， 按 报告 题目 将 这 些 报告 进 行 归 类 

(参考 本 章 应 用 案例 ) 。 参 考 该 网 站 回答 下 列 问题 : 

a 该 城市 使 用 了 哪些 绩效 指标 ? 哪些 用 于 社区 服务 ? 哪些 用 于 教育 事业 ? 

b. 总 体 来 看 ， 这 些 指 标 中 哪些 正在 改进 ， 哪 些 稳 定 不 变 ? 哪些 正在 下 降 ? 

c. 在 教育 事业 ， 这 些 指标 中 哪些 正在 改进 ， 哪 些 稳定 不 变 ? 哪些 正在 下 降 ? 

d. 选择 “Citywide Themes (城市 主题 )”( 网 页 的 左上 角 ) ， 其 中 的 一 个 主题 是 “Social Services (社会 服 
3)”, 选择 该 主题 。 然 后 ， 选 择 “View the performance report for Social Services (社会 服务 绩效 报 
告 )”。 这 里 总 共 包 含 了 多 少 绩效 指标 ? 哪些 下 降 率 大 于 10% ? 哪些 指标 在 下 降 ? 纽约 市 是 如 何 应 付 
这 些 绩效 指标 问题 的 ? 

一 个 著名 的 BSC 例子 就 是 西南 航空 公司 创建 的 用 于 管理 自己 业务 的 BSC，Anthes 的 一 个 早期 文献 指出 了 该 

系统 的 战略 图 (Computerworld. com/action/article. do? command = viewArticleBasic&articleld =78512 ) 。 
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检索 该 文献 ， 利 用 战略 图 描述 西南 航空 公司 的 战略 。 西 南航 空 公司 是 用 哪些 方法 使 绩效 和 战略 目标 相 一 致 
的 ? 根据 你 对 当今 经 济 形势 和 航空 行业 的 了 解 ， 你 认为 西南 航空 公司 的 战略 适用 于 当今 的 经 济 形势 吗 ? 

4. 数据 仓库 协会 (The Date Warehouse Institute, TDWI) 每 年 对 那些 在 开发 、 部 署 和 维护 BI 和 数据 仓库 领 
域 表现 突出 的 公司 进行 鉴定 和 排名 。 到 网 上 查看 2008 年 的 排行 榜 (tdwi. org/research/display. aspx? 
id =9000)。TDWI 鉴定 的 厂商 包含 了 哪些 种 类 ?哪些 厂商 是 优胜 者 ?他们 是 如 何 获得 优胜 者 的 称号 的 ? 

5. 许多 网 站 提供 了 仪表 盘 和 记分 卡 的 例子 和 指导 手册 ， 为 这 些 网 站 提供 的 每 个 功能 制定 一 个 Excel 原型 。 

6. 最 近 ，Oracle 的 一 个 白皮书 “Business Intelligence and Enterprise Performance Management; Trends for Mid- 
size Companies” ( oracle. com/appserver/business- intelligence/hyperion- financial- performance- man- 
agement/docs/bi- epm-trends-for-emerging-businesses. pdf) ， 对 中 型 和 大 型 公司 的 BI 和 绩效 管理 应 用 
进行 了 比较 分 析 。 首 先 ， 该 书 中 什么 样 的 公司 是 中 型 公司 ? 其 次 ， 这 些 公 司 的 应 用 包含 了 哪些 种 类 ? 这 
两 种 类 型 公司 有 什么 相同 点 和 不 同 点 ? 他 们 给 这 些 厂商 提出 了 哪些 结论 和 意见 ? 

7. 进入 webdesignerdepot com/2009/06/50- great- examples- of- data- visualization。 选 择 两 种 数据 可 视 化 
技术 ， 并 指出 这 种 技术 是 如 何在 BI 和 BPM 系统 中 发 掘 和 描述 数据 的 。 要 包含 这 些 技术 的 优 缺点 。 


本 章 结尾 应 用 案例 

跟踪 城市 绩效 管理 

大 量 的 系统 产生 了 大 规模 的 度量 值 ， 目 前 用 户 遇 到 的 问题 是 如 何 对 数据 进行 切片 ， 特 别 是 当 用 户 拥 有 丰 
富 的 信息 技术 经 验 时 ， 使 用 户 更 方便 使 用 数据 而 不 是 使 数据 困扰 用 户 。 这 是 纽约 城市 绩效 报告 (Citywide Per- 
formance Reporting, CPR) 在 线 系统 所 面临 的 一 个 主要 问题 ， 一 个 交互 式 的 仪表 盘 为 政府 机 构 和 市 民 提 供 了 
“以 友好 的 形式 访问 每 个 城市 机 构 的 关键 绩效 指标 ， 并 且 每 月 自动 更 新 、 自 动 地 评估 专业 领域 的 趋势 ”。 

CPR 的 发 展 趋势 

CPR 是 NYCStat 的 一 部 分 (nyc. gov/html/ops/nycstat/html/home/home. shtml), NYCStat 是 纽约 城 
市 提供 的 一 站 式 服 务 点 ， 提 供 了 城市 服务 的 基础 数据 、 报 告 和 统计 数据 。NYCStat 提供 了 和 各 种 绩效 相关 
信息 的 接口 ， 包 括 全 市 专业 机 构 的 信息 ， 纽 约 “311” 市 民 服务 热线 数据 ， 根 据 选 择 的 绩效 数据 和 生活 质 
量 指标 进行 交互 的 地 图 特征 。 

CPR 建立 于 2008 年 2 H, CPR 最 初 是 2005 年 市 长 运作 办 公 室 与 信息 技术 和 通信 技术 部 (Department of 
Information Technology and Communication, DoITT) 相互 合作 开发 的 2005 PHA, 该 项 目 包含 了 以 下 3 个 
组 件 (NYCStat, 2009) : . 

。 绩效 管理 应 用 ”后 端 计算 机 系统 为 专业 行政 机 构 设 置 了 输入 数据 的 单一 访问 点 。 

。 分 析 工 具 / 仪 表盘 ”前端 系 统 提 供 了 标准 的 报表 格式 ， 包含 了 向 下 展开 信息 、 绩 效 概况 和 趋势 图 。 

数据 定义 ”查看 并 定义 44 个 主要 行政 机 构 的 CPR 系统 中 包含 的 主要 度量 值 和 指标 。 

这 些 组 件 开 发 完成 于 2007 年 7 月 ， 那 时 ， 系 统 对 44 个 行政 机 构 和 主要 的 办 公 系 统 进行 开放 并 进行 回 
顾 。2007 ERER, K Bloomberg 指出 ， 该 系统 将 尽快 通过 纽约 城市 网 站 对 公众 开放 。 随 后 的 工作 将 致 
力 于 使 公众 更 容易 、 更 方便 地 使 用 该 系统 的 仪表 盘 。 系 统 最 终 在 2008 年 4 月 14 日 对 外 开放 ， 并 作为 2008 
年 度 市 长 管理 报告 显示 的 一 部 分 。 

精炼 度量 值 

城市 绩效 报告 是 市 长 管理 报告 (Mayor  s Management Report, MMR) 的 一 个 分 支 ， 是 城市 行政 机 构 每 
年 对 1 000 个 指标 进行 评估 的 结果 ， 这 些 指 标 包括 了 从 学 校 考试 分 值 到 处 理 问题 所 花费 的 时 间 等 各 个 指标 。 
CPR 不 仅 是 MMR 的 在 线 版 本 ， 而 且 还 要 求 行政 机 构 随 时 更 新 他 们 的 服务 ， 并 指出 怎样 最 好 地 评价 这 些 服 
务 的 产 出 。 起 初 ， 这 些 指 标 成 千 上 万 ， 而 且 许多 没有 被 使 用 。 最 终 ， 这 些 指 标 数 减少 到 525 个 ， 其 中 主要 
的 指标 用 于 评价 影响 城市 居民 的 最 终 服 务 输出 情况 。 这 就 是 为 什么 该 系统 向 公众 开放 。 

为 了 精简 这 些 指 标 ， 还 要 考虑 其 他 一 些 关键 因素 。 首 先 ， 数 据 按 月 或 按 年 获得 ， 因 此 要 决定 如 何 对 数 
据 进行 切片 或 切 块 ， 以 及 对 不 同时 期 的 数据 进行 横向 比较 。 其 次 ， 决 定 怎样 评价 和 呈现 发 展 趋势 及 绩效 和 
目标 之 间 的 关系 ， 指 明 指标 所 期 望 的 方向 及 绩效 好 坏 的 标准 。 最 后 ， 由 于 指标 和 行政 机 构 的 种 类 很 多 ， 公 
众 对 每 个 行政 机 构 不 是 太 了 解 ， 因 此 要 提供 简明 的 表现 形式 和 导航 说 明 。 开 发 人 员 根 据 政府 对 在 纽约 市 工 
作 和 居住 的 市 民 提 供 的 服务 形式 ， 将 这 些 指 标 分 为 8 个 “主题 ”类 型 。 包 括 : 全 市 管理 、 社 区 服务 、 经 济 
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发 展 和 商务 事件 、 基 础 设施 、 教 育 、 法 律 事件 、 公 众 安全 和 社会 服务 。 

CPR 的 影响 

从 市 长 办 公 室 的 角度 来 看 ，CPR 通过 负 有 责任 、 透 明度 和 可 接近 性 3 个 角度 来 提高 绩效 管理 效果 ， 并 

通过 以 下 功能 实现 绩效 的 提升 (NYCStat 2009) : 

。 对 重要 的 “ 产 出 ”绩效 指标 进行 评价 ， 这 些 指标 反映 了 城市 管理 政策 对 居民 生活 的 影响 。 

© 将 现在 的 数据 和 以 往 的 数据 进行 比较 ， 使 行政 机 构 对 每 年 的 绩效 提升 负责 。 

。 利用 图 表 和 不 同 的 颜色 标志 来 表示 行政 机 构 的 绩效 ， 很 明确 地 看 出 绩效 的 趋势 是 积极 的 还 是 消极 的 。 

。 提供 钻 取 的 功能 ， 使 用 户 可 以 看 到 5 年 内 的 发 展 趋势 状况 。 

。 将 反映 不 同 种 类 行政 机 构 管理 的 重要 指标 加 入 到 城市 管理 主题 中 ， 得 到 城市 绩效 管理 的 情况 。 

o 对 数据 按 月 、 季 度 或 年 进行 更 新 ， 确 保 最 近 的 数据 是 可 用 的 。 

o 提供 各 种 形式 的 数据 下 载 ， 以 便 进行 深入 分 析 。 

o 对 每 个 指标 提供 详细 的 说 明 ， 包 括 指标 的 含义 、 汇 报 的 频率 和 其 他 有 用 的 细节 。 

2009 年 3 H, CPR 系统 被 哈佛 肯尼迪 政府 学 院 “ 国 家 管理 和 改革 Ash 机 构 ” 评 定 为 2009 年 度 最 优秀 
的 50 个 管理 革新 方法 之 一 (New York Nonprofit Press, 2009) 。 

课堂 学 习 

Sarlin 指出 “看 到 政府 在 各 个 方面 的 管理 工作 像 经 营 一 个 公司 一 样 的 良好 实践 很 有 趣 。” 这 可 以 从 纽约 城 
市 市 长 运作 办 公 室 的 案例 中 得 到 证 实 ， 因 为 Bloomberg 市 长 来 自 商 业界 ， 更 确切 地 说 是 实时 的 财务 信息 界 
(bloomberg. com) 。 然 而 ， 有 些 政府 机 构 表 明 在 线 仪表 盘 和 商务 几乎 没有 联系 。 如 ， 美 国 的 首席 信息 官 
Vivek Kundra 最 近 指 出 ， 美 国 的 联邦 IT 仪表 盘 提 供 了 行政 管理 和 预算 局 (Office of Management and Budget, 
OMB) 的 数据 报告 ， 包 括 7 000 项 联邦 开 投资 的 基本 信息 及 其 中 的 将 近 800 个 主要 的 投资 项 的 详细 数据 。 
Mr. Kundra 将 他 全 部 的 事业 都 投入 到 了 政府 部 门 。 商 业 活动 可 以 从 这 些 仪 表盘 方案 中 获得 许多 有 价值 的 东西 。 

这 些 政府 仪表 盘 方 案 具 有 以 下 优势 (Buytendijk, 2008) : 

。 透明 度 有 很 大 差异 ”这些 方案 提供 了 大 量 的 公众 可 访问 的 绩效 管理 数据 ， 许 多 企业 可 以 对 行政 机 构 
提供 的 信息 进行 深入 和 广泛 的 学 习 。 

。 合作 的 重要 性 ”许多 BI 项 目 遇 到 的 困难 是 不 同 部 门 要 求 做 不 同 的 仪表 盘 或 者 记分 卡 ， 每 个 部 门 实 
现 了 短期 的 投资 收益 率 。 然 而 ， 这 样 导致 总 投资 收益 率 达 不 到 最 优 。CPR 仪表 盘 和 联邦 IT 仪表 盘 
示例 表明 ， 开 发 一 个 跨 多 个 领域 的 组 织 层面 的 方案 是 可 行 的 。 

。 不 断 的 改进 ”CPR 主要 基于 趋势 分 析 ， 而 不 是 目标 驱动 。 这 表明 绩效 指标 是 不 断 地 改进 ， 而 不 是 
以 静止 目标 为 导向 。 这 为 作业 型 仪表 盘 和 战术 型 仪表 盘 提供 了 一 个 很 好 的 例子 。 

本 章 结 尾 应 用 案例 的 问题 

1. CPR 仪表 盘 的 主要 组 成 有 哪些 ? 

2. 在 CPR 仪表 盘 中 制定 和 实施 过 程 中 包含 了 多 少 行政 机 构 部 门 ? 

3. 制定 和 实施 CPR 的 主要 步骤 有 了 哪些 ? 

4. CPR 仪表 盘 的 “主题 ”扮演 者 什么 角色 ? 

5. CPR 仪表 盘 主要 的 功能 有 哪些 ? 

6. 商务 活动 可 以 从 CPR 这 样 的 政府 方案 中 学 到 什么 ? 

来 源 : Compiled from NYCStat, “CPR Fact Sheet,” Mayor’ s Office of Operations, February 2009 , nyc. gov/html/ops/cpr/ 
downloads/pdf/cpr_fact_sheet. pdf( accessed January 2010) ; B. Sarlin , “ Mayor Unveils Web Database Tracking Per- 
formance ,” New York Sun, February 15 , 2008 , nysun. com/new- york/mayor- unveils- webdatabase- tracking- per- 
formance/71347? print = 5119866421 (accessed January 2010) ; F. Buytendijk , “The Mother of All Accountability 
Tools,” February 20, 2008 , blogs. oracle. com/frankbuytendijk/2008/02/the _ mother _ of _all_accountabili. htm 
(accessed January 2010) ; New York Nonprofit Press,“ Eight NYC Programs Among 50 Selected for National Honors,” 
March 31 ,2009 ,nynp. biz/index. php/breaking-news/620-eight-nyc- programs-among-50-selected-fornational- 
honors- ( accessed January 2010) ;J. Hiner, “U. S. Federal IT Dashboard is a Great Example of How to Promote IT,” July 
1,2009 , blogs. zdnet. com/BTL/? p =20157( accessed January 2010). 
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商务 智能 中 的 数据 挖掘 





学 习 目标 

加 定义 数据 挖掘 是 商务 智能 的 实现 技术 ; 

m 理解 业务 分 析 和 数据 挖掘 的 目标 和 好 处 ; 

m 认识 数据 挖掘 的 广泛 应 用 ; 

图 学 习 数 据 挖掘 标准 化 过 程 ; 

m 理解 数据 挖掘 中 数据 预 处 理 的 基本 步骤 ; 

图 学 习 数 据 挖掘 的 各 种 方法 和 算法 ; 

m 认识 现 有 数据 挖掘 软件 工具 ; 

图 理解 关于 数据 挖掘 的 一 些 谎言 和 廖 误 。 

通常 来 说 ， 数 据 挖掘 是 从 组 织 机 构 收集 、 组 织 和 存储 的 数据 中 开发 商务 智能 的 一 种 方法 。 大 量 
的 数据 挖掘 技术 被 组 织 机 构 用 来 更 好 地 理解 他 们 的 顾客 和 自己 的 运营 ， 解 决 复杂 的 组 织 问题 。 这 一 
章 将 研究 作为 商务 智能 技术 的 数据 挖 气 ， 学 习 实 施 数 据 挖掘 项 目的 标准 化 过 程 ， 理 解 和 建立 数据 挖 
掘 技术 使 用 的 专门 知识 ， 发 展 对 现 有 软件 工具 的 认识 程度 ， 探 索 数 据 挖 掘 存在 的 缺陷 和 神话 。 


开篇 场景 ， 数据 挖掘 来 到 好 莱 雹 

预测 某 一 电影 的 票房 收入 (也 就 是 财务 上 的 成 功 ) 是 一 个 有 趣 且 具有 挑战 性 的 问题 。 有 些 领 域 
专家 认为 ， 电 影 业 是 一 个 “依靠 直觉 和 猜测 ”的 领域 。 由 于 很 难 预测 产品 需求 ， 所 以 在 好 莱 坞 做 电 
影 业务 是 一 种 冒险 行为 。 与 此 观点 对 应 的 是 ，Jack Valenti (长 期 任 美 国电 影 协会 主席 和 CEO) 曾 指 
出 ,“ 没 有 人 能 告诉 你 一 部 电影 的 市 场 表 现 将 如 何 …… 直 到 电影 在 漆黑 的 影院 开幕 ， 在 观众 和 菊 幕 
之 间 擦 出 火花 。” 娱乐 行业 的 贸易 杂志 中 ， 大 量 例子 、 陈 述 和 经 验 都 完全 支持 这 种 说 法 。 

就 像 其 他 很 多 研究 者 试图 阐释 这 一 极 具 挑战 性 的 实际 问题 一 样 ，Ramesh Sharda 和 Dursun 
Delen 在 制 片 尚未 开始 的 阶段 〈 在 电影 仅仅 还 是 一 个 概念 创意 时 ) 就 应 用 数据 挖掘 进行 电影 的 票 
房 收入 表现 预测 。 在 他 们 广 为 宣 传 的 预测 模型 中 ， 他 们 将 预测 〈 回 归 ) 问题 转换 为 一 个 分 类 问 
题 。 换 名 话说， 他 们 基于 票房 收入 将 电影 划分 为 从 “失败 ”到 “拳头 产品 ”的 9 大 类 ， 而 不 是 
对 票房 收入 进行 预测 点 估计 ， 从 而 将 问题 转换 成 为 一 个 多 项 式 分 类 问题 。 表 4-1 阐明 了 票房 收入 
的 等 级 范围 划分 定义 。 


表 4-1 基于 收入 的 电影 分 类 





分 类 号 1 2 3 4 5 6 7 8 9 
范围 ( 百 万 美元 <l >1 >10 >20 >40 >65 >100 >150 >200 
为 单位 ) (失败 ) <10 <20 <40 <65 <100 <150 <200 (一鸣惊人) 
数据 


数据 来 源 于 与 各 种 电影 相关 的 数据 库 (例如 ，ShowBiz、IMDb、IMSDb、AllMovie) ， 然 后 将 
它们 合并 成 为 一 个 单独 的 数据 集 。 最 近 开 发 的 模型 数据 集 ， 包 括 了 从 1998 年 到 2006 年 间 发 布 的 
2 632 部 电影 。 表 4-2 总 结 了 各 独立 变量 及 其 规格 定义 。 要 详细 了 解 这 些 独 立 变 量 , 读 者 可 以 参阅 
文献 Sharda and Delen (2007)。 
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表 4-2 独立 变量 概要 














独立 变量 可 能 值 的 数目 可 能 什 
MPAA (美国 电影 协会 ) 等 级 5 G, PG, PG-13, R, NR 
竞争 3 高 、 中 、 低 
明星 价值 3 高 、 中 、 低 
流派 10 科幻 、 历 史 剧 、 现 代 剧 、 政 治 相关 片 、 惊 悚 片 、 愁 怖 片 、 喜 剧 、 卡 
通 、 动 作 、 纪 录 片 
特技 3 高 、 中 、 低 
续篇 1 是 、 否 
FERE 1 正 整 数 
解决 方案 


应 用 各 种 数据 挖掘 方法 ， 包 括 神 经 网 络 、 决 策 树 、 支 持 向 量 机 (Support Vector Machine, SVM), 
以 及 3 种 类 型 的 组 合算 法 ，Sharda 和 Delen 开发 了 预测 模型 。 而 2006 年 的 数据 则 被 用 作 测试 数据 来 评 
估 和 比较 模型 的 预测 精确 度 。 图 4-1 展示 了 用 SPSS 的 PASW Modeler ( 即 以 前 的 Clementine 数据 挖掘 工 
具 ) 描述 的 预测 问题 的 过 程 图 。 过 程 图 的 左上 部 分 展示 了 模型 开发 过 程 ， 右 下 角 则 展示 了 模型 的 评估 
(测试 或 评分 ) 过 程 。 关 于 PASW Modeler 工具 及 其 使 用 细节 可 参考 本 书 的 Web 网 址 。 


SA 











\ 
| 模型 开发 过 程 


模型 评估 过 程 
































图 4-1 票房 收入 预测 系统 流程 截图 
来 源 : SPSS. Used with permission. 
结果 
表 4-3 给 出 了 所 有 3 种 数据 挖掘 方法 和 3 种 不 同类 型 组 合 方法 的 预测 结果 。 第 1 个 性 能 指标 
称 为 bingo， 表 示 等 级 正确 分 类 的 比率 。 表 中 还 给 出 了 在 一 个 范畴 内 (1- Away) 的 正确 等 级 分 类 
比率 。 结 果 表 明 ， 在 独立 预测 模型 中 ，SVM 表现 最 好 ， 其 次 是 ANN， 最 差 的 是 CART 决策 树 算 
法 。 总 体 上 ， 组 合 模型 表现 优 于 独立 预测 模型 。 其 中 ， 融 合算 法 表现 最 好 。 
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表 4-3 独立 和 组 合 模 型 的 预测 结果 表格 











































预测 模型 

独立 模型 组 合 模型 
性 能 指标 SVM ANN CART 随机 森林 增强 树 融合 CFH) 
数目 (Bingo) 192 182 | 140 189 187 本 
数目 (1-Away) 104 120 126 121 104 120 
精确 度 (% Bingo) 55. 49% 40. 46% 56. 07% 
精确 度 (%1-Away) | 85. 55% 76. 88% 90. 25% 
标准 差 0. 93 1.05 














从 表 中 我 们 可 以 看 到 ， 组合 模 型 预测 结果 的 标准 差 显 著 小 于 独立 模型 预测 结果 的 标准 差 ， 
这 一 点 对 于 决策 者 可 能 更 为 重要 。 

结论 

研究 者 认为 ， 该 预测 结果 优 于 本 领域 现 有 文献 中 的 其 他 结果 。 对 于 票房 收入 的 预测 结果 具 
有 非常 高 的 精确 度 。 而 且 ， 这 些 模 型 可 以 被 用 于 进一步 分 析 和 优化 决策 变量 ， 从 而 使 得 财务 收入 
最 大 化 。 特 别 地 ， 可 以 使 用 已 经 训练 过 的 预测 模型 改变 建 模 参 数 ， 以 更 好 地 理解 不 同 参数 对 于 最 
终结 果 的 影响 。 通 过 这 样 一 个 敏感 度 分 析 的 过 程 ， 特 定 娱乐 企业 的 决策 者 可 以 很 精确 地 了 解 某 
位 演员 〈 或 某 个 发 布 日 期 、 某 种 技术 效果 等 ) 对 于 公司 财务 成 功 的 贡献 程度 。 这 使 得 该 系统 成 
为 一 种 宝贵 的 决策 辅助 手段 。 


开篇 场景 的 问题 


. 为 什么 好 莱 坞 的 决策 者 需要 用 到 数据 控 掘 ? 
. 好 莱 坞 管理 者 面临 的 首要 挑战 是 什么 ?你 能 否 想 出 面临 类 似 问 题 的 其 他 行业 ? 
. 人 研究 者 是 否 使 用 了 所 有 数据 来 建立 预测 模型 ? 谈 谈 你 的 看 法 。 
. 研究 者 为 什么 选择 将 一 个 回归 问题 转换 为 一 个 分 类 问题 ? 谈 谈 你 的 看 法 。 
.你 认为 该 如 何 应 用 这 些 预测 模型 ? 你 能 否 为 这 些 模 型 想 出 一 个 很 好 的 生成 系统 ? 
. 你 认为 决策 者 是 否 容易 适应 这 样 的 信息 系统 ? 
. 如 何 进一步 改善 实例 中 的 预测 模型 ? 

我 们 从 开篇 场景 中 能 够 学 到 什么 

娱乐 业 的 决策 者 们 面临 着 很 多 有 趣 而 富有 挑战 性 的 问题 。 对 于 娱乐 业 市 场 上 的 很 多 公司 
来 说 ， 对 巨额 财富 进行 正确 的 管理 决策 对 其 成 功 〈 或 仅仅 是 生存 ) 而 言 至 关 重 要 。 对 于 这 样 
一 个 “数据 丰富 ， 知 识 贫 乏 ” 的 业务 环境 ， 数 据 挖掘 是 其 实现 更 好 管理 的 重要 选择 。 开 篇 故 
事 中 的 研究 清楚 地 说 明了 数据 挖掘 能 够 预测 和 解释 电影 财务 表现 的 能 力 ， 尽 管 大 多 数 观 点 认 
为 电影 是 一 种 艺术 形式 因而 是 不 能 被 预测 的 。 在 本 章 中 ， 读 者 可 以 学 习 数 据 挖掘 在 各 行业 中 
的 广泛 应 用 。 您 将 学 习 数据 挖掘 如 何 应 用 数据 解决 一 系列 复杂 的 产业 问题 ， 从 而 提升 商业 竞 
争 优势 。 

来 源 : R. Sharda and D. Delen, “Predicting Box-Office success of Motion Pictures with Neural Networks” , Expert Systems with 
Applications , vol. 30 ,2006 , pp. 243-254; D. Delen ,R. Sharda, and P. Kumar, “Movie Forecast Guru; A Web-based DSS 
for Hollywood Managers,” Decision Support Systems. Vol. 43 ,No. 4 ,2007 , pp. 1151-1170. 


4.1 数据 挖掘 概念 和 定义 


1999 年 1 月 ,在 《Computerworld》 杂 志 的 一 次 会 议 中 ，Amo Penzias 博士 (iM 尔 奖 得 主 ， 
贝尔 实验 室 前 首席 科学 家 ) 提出 ， 在 不 久 的 将 来 ， 基 于 组 织 数据 库 的 数据 挖掘 将 成 为 一 种 企业 


说 下 wm 上 mb 一 
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关键 应 用 。 对 于 《Computerworld》 杂志 提 出 的 一 个 由 来 已 久 的 问题 :“ 什 么 将 成 为 企业 的 杀手 级 
应 用 ?” Penzias 博士 回答 :“ 数 据 挖掘 。” 然 后， 他 补充 说 : “数据 挖掘 将 比 现 在 重要 得 多 ， 企 业 
将 不 会 扔 掉 客 户 的 任何 信息 ， 因 为 客户 信息 非常 宝贵 。 如 果 企 业 不 这 样 做 ， 那 么 就 做 不 成 生 
意 。” 类 似 地 ，Thomas Davenport 于 2006 年 发 表 在 《Harvard Business Review) 的 一 篇 论文 中 认为 ， 
决策 分 析 学 是 企业 的 最 新 战略 武器 。 他 给 出 的 例子 包括 Amazon. com, Capital One, Marriott Inter- 
national 和 其 他 企业 。 这 些 企业 应 用 分 析 学 来 更 好 地 理解 客户 ， 优 化 其 延伸 供应 链 ， 从 而 在 为 客 
户 提供 最 佳 服务 的 同时 ， 最 大 限度 地 提高 其 投资 回报 。 决 策 分 析 有 多 成 功 ， 在 很 大 程度 上 依赖 于 
企业 对 其 客户 、 供 应 商 、 业 务 流程 和 延伸 供应 链 的 理解 程度 。 

这 种 认识 理解 的 很 大 成 分 来 自 于 对 企业 采集 的 海量 数据 所 进行 的 分 析 。 近 来 ， 数 据 存 储 处 
理 成 本 的 急速 降低 ， 带 来 了 电子 数据 存储 量 的 爆炸 式 增长 。 大 型 数据 库 的 出 现 使 得 存储 数据 分 
析 成 为 可 能 。 数 据 挖 握 这 个 词 最 初 用 于 描述 从 数据 中 发 现 未 知 模式 的 过 程 。 之 后 ,一 些 软 件 厂商 
为 了 利用 数据 挖掘 的 喧 头 促销 其 产品 ， 对 该 定义 边界 进行 了 扩展 ,将 大 多 数 形 式 的 数据 分 析 都 
包括 到 该 定义 中 。 在 本 章 中 ,我们 采用 数据 挖掘 的 原始 定义 。 

虽然 数据 挖掘 是 一 个 相对 比较 新 的 名 词 ， 但 其 背后 的 思想 却 由 来 已 入 。 数 据 挖掘 采用 的 很 
多 技术 根源 是 传统 的 统计 分 析 和 20 世纪 80 年 代 早 期 的 人 工 智 能 技术 。 那 么 ， 为 什么 业界 现在 突 
然 开 始 关注 数据 挖掘 呢 ? 主要 原因 如 下 : 

。 客户 需求 的 不 断 变 化 和 市 场 需 求 的 日 趋 饱和 带 来 了 全 球 范围 内 更 激烈 的 竞争 。 

。 对 于 海量 数据 中 隐藏 的 未 开发 价值 的 普遍 重视 。 

。 数据 库 记 录 的 合并 和 集成 形成 了 关于 客户 、 供 应 商 和 交易 的 单一 视图 。 
© 数据 库 和 其 他 数据 资料 库 都 合并 到 单一 位 置 一 一 数据 仓库 中 。 





数据 存储 和 数据 处 理 技术 的 指数 增长 。 
数据 存储 和 数据 处 理 相关 软 硬 件 成 本 的 显著 降低 。 
商业 行为 中 的 分 散 化 运动 〈 将 信息 资源 转换 为 非 物 质 形态 ) 。 

因特网 产生 的 数据 数量 和 复杂 度 都 在 急速 增长 。 全 世界 正在 产生 和 积累 大 量 的 基因 组 数据 。 
航天 和 核 物理 科学 定期 生成 海量 数据 。 医 学 和 药剂 学 研究 者 也 在 不 断 地 产生 和 存储 数据 ， 数 据 
挖掘 程序 应 用 这 些 数 据 来 识别 精确 诊断 和 治疗 疾病 的 更 好 方法 ， 还 可 以 利用 这 些 数据 发 现 新 的 
更 好 的 药 。 

在 商业 方面 ， 数 据 挖 掘 可 能 更 普遍 地 应 用 于 金融 、 零 售 和 卫生 保健 部 门 。 数 据 挖掘 被 用 
于 检测 和 减少 诈骗 活动 ， 特 别 是 在 保险 索赔 和 信用 卡 使 用 中 (Chan et al., 1999); 识别 客户 
购买 模式 ; 开发 有 助 于 获 利 的 客户 ; 从 历史 数据 中 发 现 交易 规则 ; 以 及 应 用 购物 篮 分 析 帮 助 
增加 利润 。 数 据 挖掘 正 被 广泛 应 用 于 更 好 地 定位 客户 ， 而 随 着 电子 商务 的 发 展 ， 这 一 定 会 变 
得 越 来 越 迫 切 。 请 看 应 用 案例 4. 1， 了 解 1-800-Flowers 是 如 何 应 用 业务 分 析 和 数据 挖掘 取得 商 
业 成 功 的 。 





应 用 案例 4. 1 业务 分 析 和 数据 挖掘 帮助 1-800- Flowers 获取 商业 成 功 


1-800-Flowers 是 礼物 零售 业 最 为 著名 和 成 功 的 品牌 之 一 。30 多 年 以 来 ， 这 家 设 在 纽约 的 
公司 为 世界 各 地 的 客户 供应 适合 各 种 场合 的 鲜花 、 植 物 、 礼 品 复 、 精 致 食品 、 糖 果 、 毛 绒 动 
物 玩具 。1-800-Flowers 由 Jim McCann 于 1976 年 创立 。14 年 前 ， 在 开放 了 自己 的 Web 网 站 之 
后 ， 它 迅速 成 为 直接 订购 电子 商务 的 领袖 。 
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问题 
尽管 已 经 非常 成 功 ， 但 1-800-Flowers 和 其 他 涉足 电子 商务 的 企业 一 样 ， 需 要 进行 实时 决 
策 以 增加 收益 、 降 低 成 本 ， 并 保留 其 最 好 的 客户 ， 使 这 些 客 户 更 多 地 成 为 回头 客 。 由 于 该 公 
司 的 业务 已 经 由 一 家 花 店 成 长 为 一 家 拥有 3 000 万 客户 的 在 线 礼品 零售 商 ， 所 以 它 需 要 做 到 
最 好 来 保持 其 竞争 优势 。 
解决 方案 
1-800- Flowers 坚信 稳 国 客户 关系 的 价值 ， 因 而 非常 希望 能 够 通过 分 析 其 拥有 的 每 一 条 客户 
数据 来 更 好 地 理解 其 客户 需求 。1-800-Flowers 决定 应 用 SAS 数据 挖掘 工具 来 深入 挖掘 其 数据 资 
产 ， 以 发 现 新 的 客户 行为 模式 ， 并 利用 这 种 知识 促成 商业 交易 。 
结果 
根据 McCann， 在 业务 分 析 和 SAS 数据 挖掘 工具 的 帮助 下 ， 不 管 整 体 经 济 环 境 如 何 ，1- 
800-Flowers 都 能 够 实现 业务 增长 。 当 其 他 零售 商 在 为 了 生存 而 苦 苦 挣扎 时 ，1-800-Flowers 在 
过 去 5 年 中 却 几 乎 实现 了 收入 翻 倍增 长 。 
业务 分 析 带 来 的 好 处 如 下 : 
e 营销 活动 更 有 效率 通过 邮递 直销 ，1-800-Flowers 大 幅度 地 减少 了 其 用 于 客户 分 类 的 
时 间 。 客 户 知 识 管理 副 主 管 Aaron Can 说 ,“ 过 去 需要 花 2~3 周 时 间 ， 而 现在 只 需要 
2 ~3 天 的 时 间 。 这 就 给 了 我 们 时 间 来 进行 更 多 的 业务 分 析 ， 从 而 确保 我 们 发 出 的 商 
业 信息 是 恰当 的 。” 
e 更 少 的 邮件 和 更 高 的 回复 率 ”公司 已 经 能 够 在 显著 减少 其 营销 邮件 的 情况 下 ， 保 证 
更 高 的 回复 率 。 同 时 ， 对 于 电视 和 广播 广告 更 有 选择 权 。 
e 更 好 的 客户 体验 ” 当 一 位 回头 客 登 录 1-800-Flowers. com 时 ， 网 站 会 很 快 显 示 该 客户 
可 能 感 兴趣 的 商品 。“ 如 果 一 位 客户 通常 为 其 妻子 购买 郁金香 ， 我 们 就 会 为 其 列 出 我 
们 最 新 和 最 好 的 郁金香 产品 ,” Cano 说 。 
。 增加 重复 销售 公司 最 好 的 客户 更 频繁 地 重复 购买 ， 因 为 1-800-Flowers 了 解 客 户 是 
谁 ， 并 且 知 道 他 需要 什么 。 公 司 营 造 了 一 种 轻松 方便 的 购物 体验 ， 并 且 在 接触 客户 
时 就 完成 销售 。 
通过 使 用 业务 分 析 和 数据 挖掘 ，1-800-Flowers 减少 了 其 运营 费用 ， 使 其 最 好 客户 的 保持 率 
增加 到 超过 80% ， 吸 引 了 2 000 万 新 客户 ， 并 且 将 总 体 的 重复 交易 比率 从 不 到 40% 提 高 到 超过 
50% (所 有 品牌 的 重复 交易 每 增加 10 个 百分点 ， 就 意味 着 增加 4000 万 美元 的 额外 收入 ) 。 
来 源 : Based on “SAS Helps 1- 800- Flowers.com Grow Deep Roots with Customers,” Sas. com/success/ 
1800flowers. html (accessed on May 23, 2009); “Data Mining at 1-800-Flowers,” kdnuggets. com/news/ 
2009/ n10/3i. html (accessed on May 2006, 2009) . 











4.1.1 定义 、 特征 和 好 处 


简单 地 说 ， 数 据 挖 据 这 个 名 词 是 指 从 海量 数据 中 发 现 或 “挖掘 ”知识 。 人 们 很 容易 发 现 数 
据 挖 气 实 际 上 用 词 不 当 。 打 个 比方 来 说 ， 从 泥土 和 岩石 中 挖掘 金子 称 为 据 “ 金 ”， 而 不 是 “ 泥 
土 ”挖掘 或 “岩石 ”挖掘 。 因 此 ， 数 据 挖掘 可 能 应 该 被 称 为 “知识 挖掘 ”或 “知识 发 现 ”。 尽 
管 这 个 名 称 和 其 实际 含义 并 不 匹配 ， 但 大 家 还 是 选择 了 数据 挖 气 这 个 术语 。 还 有 很 多 其 他 名 词 
也 和 数据 挖掘 有 关 ， 包 括 知 识 提取 、 模 式 分 析 、 数 据 考古 、 信 息 采 集 、 模 式 搜索 和 数据 捕捞 。 

严格 来 说 ， 数 据 挖掘 是 一 个 应 用 统计 学 、 数 学 和 人 工 智 能 技术 从 大 数据 集中 提取 和 识别 有 
用 信息 以 及 随 之 而 产生 的 知识 的 过 程 。 这 些 模 式 的 表现 形式 可 以 是 业务 规则 、 类 同 关系 、 关 联 关 
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系 、 趋 势 或 预测 模型 (Nemati and Barko，2001) 。 大 多 数 文献 将 数据 挖掘 定义 为 “从 结构 化 数据 
库 中 识别 出 合理 的 、 新 颖 的 、 可 能 有 用 的 、 并 且 最 终 可 理解 的 模式 的 一 个 非 简单 过 程 。” 其 中 ， 
数据 以 分 类 变量 、 顺 序 变量 和 连续 变量 结构 化 的 记录 形式 组 织 (Fayyad et al. ，1996 ) 。 该 定义 中 
的 关键 术语 含义 如 下 : 
e 过 程 表 明 数 据 挖掘 包括 很 多 和 迭 代步 又 。 
© 非 平凡 说 明 其 中 涉及 一 些 实验 搜索 或 推导 ， 就 像 对 预定 数值 进行 计算 一 样 明确 。 
。 合理 的 含义 是 ， 有 足够 程度 的 把 握 认 为 所 发 现 的 模式 同样 适用 于 新 数据 。 
。 新 颖 是 指 对 于 所 分 析 的 系统 、 模 式 是 用 户 此 前 未 知 的 。 
e 可 能 有 用 是 指 所 发 现 的 模式 应 该 能 够 为 用 户 或 任务 带 来 一 些 好 处 。 
e 最 终 可 理解 意味 着 模式 应 当 具 有 商业 意义 。 不 是 立刻 ， 但 是 至 少 在 模式 经 过 后 置 处 理 后 ， 
用 户 会 由 此 说 :“ 咽 ,很 有 道理 ! 为 什么 我 没 想到 呢 ?” 
数据 挖掘 并 非 一 门 新 学 科 ， 而 是 一 个 应 用 很 多 
学 科 的 新 定义 。 数 据 挖掘 紧密 定位 于 多 学 科 的 交 又 ， 
包括 统计 、 人 工 智 能 、 机 器 学 习 、 管 理科 学 、 信 息 
系统 和 数据 库 〈 见 图 4-2) 。 数 据 挖掘 应 用 所 有 这 些 
学 科 的 进展 ， 在 从 大 型 数据 库 中 提取 有 用 信息 和 知 
识 方面 取得 进步 。 这 是 一 个 在 很 短 时 间 内 就 吸引 了 
诸多 关注 的 新 兴 领 域 。 
以 下 是 数据 挖掘 的 主要 特征 和 目标 : 
© 数据 往往 被 深 埋 在 非常 大 型 的 数据 库 中 。 这 些 
大 型 数据 库 往 往 包含 数 年 的 数据 。 在 很 多 情况 
下 ， 数 据 被 清洗 然后 合并 到 一 个 数据 仓库 中 。 
© 数据 挖掘 环境 通常 是 一 个 客户 机 /服务 器 架 
构 或 一 个 基于 Web 的 信息 系统 架构 。 
。 使 用 尖端 新 型 工具 ， 包 括 先 进 的 可 视 化 工 
具 ， 来 帮助 移动 埋藏 于 公司 文件 或 公众 档案 图 4-2 数据 挖 据 一 多 学 科 交 融 的 学 科 
记录 中 的 信息 宝藏 。 这 需要 对 数据 进行 修改 
和 同步 以 得 到 正确 的 结果 。 人 尖端 的 数据 挖掘 技术 还 在 探索 利用 软 性 数据 〈 即 非 结 构 化 数 
据 ， 存 储 在 诸如 Lotus Notes 数据 库 、Internet 文本 文件 ， 或 者 企业 内 部 网 络 这 样 的 位 置 ) 。 
© 进行 数据 挖掘 的 人 经 常 是 具备 很 少 或 根本 不 具备 编程 技能 的 终端 用 户 。 利 用 数据 钻探 和 
其 他 强大 的 查询 工具 ， 用 户 可 以 提出 特定 的 问题 并 迅速 得 到 答案 。 
。 从 数据 挖掘 中 真正 获 益 的 过 程 常 常 伴 随 着 发 现 某 个 意外 结果 ， 终 端 用 户 在 整个 过 程 中 的 
创造 性 思考 ， 以 及 对 于 发 现 结果 的 创造 性 解释 。 
© 数据 挖掘 工具 很 容易 和 电子 制 表 软 件 等 其 他 软件 开发 工具 结合 ， 因 而 使 挖掘 数据 的 分 析 
和 部 署 更 加 容易 和 快速 。 
。 由 于 数据 量 和 搜索 工作 量 都 非常 大 ， 所 以 数据 控 掘 有 时 需要 使 用 并 行 处 理 。 
有 效 运用 数据 挖掘 工具 和 技术 的 企业 能 够 获得 和 保持 战略 竞争 优势 。 通 过 将 数据 转换 为 一 
种 战略 武器 ， 数 据 挖掘 为 组 织 提供 了 一 个 对 于 开拓 新 商机 不 可 或 缺 的 优化 决策 环境 。Nemati and 
Barko (2001) 对 数据 挖掘 带 来 的 战略 利益 进行 了 更 详细 的 讨论 。 


技术 前 s 
数据 是 指 从 经 验 、 观 测 或 实验 中 得 到 的 一 系列 事实 的 汇总 。 数 据 可 能 由 作为 一 组 变量 测量 值 的 数字 、 








管理 科学 和 
信息 系统 
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文字 、 图 像 等 构成 。 数 据 常 被 认为 是 从 中 获取 信息 和 知识 的 抽象 的 最 低层 次 。 


在 抽象 的 最 高 层次 ， 可 以 将 数据 分 为 分 类 数据 和 数值 数据 。 其 中 ， 分 类 数据 又 可 以 再 细 分 为 名 目 数据 
和 序数 数据 ， 而 数值 数据 则 可 以 再 细 分 为 区 间 数 据 和 比率 数据 。 图 4-3 给 出 了 数据 挖掘 中 一 个 简单 的 数据 


分 类 体系 。 

















图 4-3 ”数据 挖掘 中 一 个 简单 的 数据 分 类 体系 














© 分 类 数据 表示 用 于 将 一 个 变量 分 为 多 个 特定 分 组 的 多 类 标签 。 例 如 ， 种 族 、 性 别 、 年 龄 组 和 教育 程 


度 都 是 类 别 变量 。 虽 然后 两 个 变量 也 可 以 看 成 是 数值 变量 ， 例 如 可 以 用 具体 的 数值 表示 年 龄 ， 用 所 
完成 的 最 高 级 别 数值 表示 教育 程度 ， 但 更 有 用 的 往往 是 将 这 些 变量 分 类 成 为 相对 少量 的 几 个 有 序 
组 。 分 类 数据 也 可 称 为 离散 数据 ， 即 它 所 表达 的 是 有 限 数量 的 非 连续 值 。 即 使 这 些 分 类 (离散 ) 
变量 的 值 是 数值 型 的 ， 这 些 数值 也 仅仅 是 一 些 符号 ， 并 不 能 计算 其 分 数值 。 


。 名 目 数据 包含 为 对 象 分 配 的 简单 代码 标签 ， 是 不 可 测量 的 。 例 如 ， 变 量 婚姻 状况 一 般 可 分 为 (1) 单 


身 ; (2) 已 婚 ; (3) 离异 。 名 目 数据 可 能 只 有 2 种 可 能 值 (如 : 是 / 否 、 真 / 假 、 好 / 坏 ), 也 可 能 有 
3 个 或 更 多 个 可 能 值 (如: 棕色 /绿色 / 蓝 色 、 白 人 /黑人 /拉丁 美洲 人 /亚洲 人 、 单 身 / 已 婚 /离异 ) 。 


。 序数 数据 包含 赋予 对 象 或 事件 的 代码 标签 ， 用 于 表达 对 象 或 事件 的 等 级 顺序 。 例 如 ， 变 量 信用 评分 


”可 以 分 成 (1) 低 ; (2) 中 等 ; G) 高 。 类 似 的 有 序 关系 也 可 以 在 诸如 “年 龄 组 ”( 即 : 儿童 、 青 
年 、 中 年 、 老 年 ) 和 “教育 程度 ”( 即 : 中 学 、 大 学 、 研 究 生 ) 等 这 样 的 变量 中 看 到 。 有 些 数 据 挖 
掘 算法 〈 例 如 多 元 序数 逻辑 回归 ) 将 这 种 附加 等 级 顺序 信息 纳入 考虑 ， 从 而 建立 更 好 的 分 类 模型 。 


。 数值 数据 表达 特定 变量 的 数量 值 。 年 龄 、 子 女 数 、 家 庭 总 收入 〈 以 美元 计算 ) 、 旅 行距 离 (用 英里 


计算 ) 和 温度 〈 用 华氏 温度 计算 ) 等 都 是 数值 变量 。 数 量 值 变量 可 以 是 整 型 (只 能 是 整数 ) 或 实 
数 〈 也 可 以 包含 分 数 ) 。 数 值 数 据 也 可 称 为 连续 数据 ， 即 这 种 变量 在 特定 范围 内 具有 连续 值 ， 人 允许 
存在 过 渡 值 。 与 代表 有 限 可 数 数据 的 离散 变量 不 同 ， 连 续 变 量 代表 的 值 是 可 扩展 的 ， 可 以 包含 无 限 
个 可 分 割 的 值 。 


。 区 间 数 据 是 基于 区 间 尺 度 衡量 的 变量 。 区 间 尺 度 测量 中 一 个 熟 为 人 知 的 例子 是 摄氏 温度 计量 ， 其 度 


量 单位 是 标准 大 气压 下 水 的 熔点 和 沸点 之 差 的 /100。 换 名 话说， 不 存在 绝对 零度 。 


。 比率 数据 包含 的 测度 变量 常见 于 物理 学 和 工程 学 中 。 例 如 ， 体 积 、 长 度 、 时 间 、 平 面 角 、 能 量 和 电 


荷 等 都 是 物理 量度 中 的 一 些 比例 尺度 。 比 率 类 型 得 名 于 其 测度 方式 ， 即 其 测量 单位 是 一 个 连续 量 的 
总 数量 和 单位 数量 的 比例 估计 值 。 通 俗 地 说 ， 比 率 测度 的 显著 特征 是 有 一 个 非 任意 的 零 值 。 例 如 ， 
开尔文 温度 有 一 个 非 任意 的 零点 标志 绝对 零度 ， 等 于 摄氏 零下 273. 15 度 。 该 零点 是 非 任 意 的 ， 因 
为 在 此 温度 下 构成 物质 的 粒子 具有 的 动能 为 零 。 


。 其 他 数据 类 型 包括 日 期 /时 间 、 非 结构 化 文本 、 图 像 和 音频 。 在 应 用 数据 挖掘 算法 处 理 这 些 数据 类 


型 以 前 ,需要 先 将 其 转换 为 某 种 形式 的 类 别 数据 或 数值 数据 。 数 据 还 可 以 分 为 静态 和 动态 (时间 
或 时 间 序 列 ) 。 


某 些 数据 挖掘 方法 对 所 处 理 的 数据 类 型 是 挑剔 的 。 不 匹配 的 数据 类 型 将 导致 错误 的 模型 或 
者 更 常见 地 ， 导 致 模型 开发 过 程 的 终止 。 例 如 ， 一 些 数据 挖掘 算法 要 求 所 有 的 输入 变量 和 输出 变 
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量 都 由 数值 类 型 变量 表达 〈 例 如 神经 网 络 、 支 持 向 量 机 、 逻 辑 回归 ) 。 使 用 1 一 N 伪 变 量 ， 名 称 
变量 或 序数 变量 被 转换 为 数值 表达 。( 例 如 ， 具 有 3 个 单 值 的 分 类 变量 可 以 被 转换 为 3 个 具有 二 
进 制 值 1 或 0 的 伪 变 量 ) 。 由 于 该 过 程 会 造成 变量 数目 增加 ， 所 以 应 当 谨慎 使 用 ， 特 别 是 对 于 有 
大 量 单 值 的 分 类 变量 来 说 。 

类 似 地 ， 也 有 一 些 数据 挖掘 算法 ,例如 ID3 (一 种 经 典 的 决策 树 算法 ) 和 粗糙 集 〈 一 种 相对 
新 的 规则 归纳 算法 ) ， 要 求 所 有 变量 都 由 分 类 变量 表达 。 这 些 算 法 的 早期 版 本 还 要 求 用 户 在 进行 
数据 处 理 前 ， 先 对 数值 变量 离散 化 ， 将 其 表达 为 分 类 变量 。 好 消息 是 ,在 广泛 使 用 的 一 些 软件 工 
具 中 ， 对 这 些 算法 的 大 多 数 实现 都 能 够 同时 接受 数值 变量 和 名 称 变量 ， 而 数据 处 理 前 的 必要 转 
换 则 在 工具 内 部 完成 。 








应 用 案例 4. 2 ”警察 局 应 用 数据 挖掘 打击 犯罪 


资源 萎缩 、 线 索 不 够 和 陈 年 旧 案 都 加 剧 了 打击 犯罪 的 复杂 性 。 在 英国 的 一 家 警察 局 ， 
侦查 人 员 发 现 这 些 挑战 限制 了 案件 处 理 量 。 大 量 缺 乏 明 确 线 索 的 实例 ， 例 如 入 室 行窃 和 
车 辆 盗窃， 都 缺乏 明确 的 证 据 ， 因 而 在 发 现 新 证 据 前 常 被 搁置 一 旁 。 因 此 ， 人 警察 局 面临 
的 挑战 在 于 确定 一 种 能 够 轻松 快速 发 现 未 决 犯罪 案件 的 模式 和 趋势 的 方法 。 

警察 局 的 每 一 个 电子 案 宗 文件 都 记录 了 小 偷 的 外 貌 和 他 们 的 犯罪 手法 。 虽 然 ， 很 多 
缺乏 证 据 的 案件 过 去 被 搁置 了 ， 但 警察 局 现在 可 以 对 其 重新 审查 ， 并 比 以 往 更 迅速 地 进 
行 处 理 。 应 用 PASW Modeler， 数 据 模拟 器 可 以 使 用 两 个 Kohonen 网 络 对 类 似 的 外 貌 描 述 
和 犯罪 手法 进行 聚 类 ， 然 后 联合 聚 类 ， 检查 类 似 的 外 和 貌 描 述 和 类 似 的 犯罪 手法 是 否 相 符 。 
若 两 者 非常 匹配 ， 且 已 知 作 案 者 的 一 个 或 多 个 罪行 ， 则 未 决 案件 也 有 可 能 是 同一 人 所 为 。 

分 析 小 组 进一步 调查 了 这 些 聚 类 ， 应 用 统计 方法 来 查证 这 些 相似 点 的 重要 程度 。 如 
果 聚 类 结果 指出 待 查 作案 者 可 能 已 经 找到 ， 则 重新 调查 其 他 罪案 ; 如 果 作 案 者 仍然 未 知 ， 
但 聚 类 结果 显示 很 多 案件 的 作案 者 是 同一 人 人， 那么 可 以 结合 这 些 线索 来 变更 案件 的 优先 
次 序 。 同 时 ， 该 警 局 还 对 多 次 累犯 的 行为 进行 了 分 析 ， 以 识别 出 符合 其 行为 模式 的 案件 。 
该 警 局 希望 PASW Modeler 能 够 重新 分 析 旧 案 ， 将 已 知 案犯 和 这 些 旧 案 建立 联系 。 

全 球 警 察 部 门 都 在 应 用 21 世纪 的 创新 科技 一 一 数据 挖掘 技术 ， 提 高 打击 犯罪 的 技术 
水 平 ， 阻 止 犯罪 活动 。 在 各 大 数据 挖掘 解决 方案 提供 商 (例如 SPSS、SAS、StatSoft 和 
Salford Systems) 和 咨询 公司 网 站 ， 都 可 以 看 到 数据 挖掘 的 成 功 应 用 故事 。 

来 源 :“Police Department Fights Crime with SPSS Inc. Technology,”spss. com/success/pdf/WMPCS- 1208. pdf( ac- 

cessed on May 25,2009). 











4.1.2 数据 挖掘 的 工作 原理 


数据 挖掘 利用 现 有 相关 数据 建立 模型 ， 以 识别 数据 集 呈 现 的 属性 模式 。 模 型 通过 数学 表示 
形式 (简单 的 线性 关系 或 复杂 的 高 度 非 线 性 关系 ) 来 识别 对 象 〈 例 如 客户 ) 属性 中 的 模式 。 其 
中 ,一 些 模 式 是 解释 性 的 (解释 属性 之 间 的 相互 关系 ) ， 而 另 一 些 模式 则 是 预测 性 的 〈 预测 某 些 
属性 的 未 来 取 值 )。 一 般 而 言 ， 数 据 挖掘 则 在 识别 4 种 主要 类 型 的 模式 : 

1. 关联 模式 发 现 普 遍 共同 发 生 的 事物 分 组 。 例 如 ， 购 物 篮 分 析 发 现 顾 客 常常 同时 购买 啤酒 
和 尿布 。 

2. 预测 模式 基于 过 去 已 发 生 的 一 切 对 某 些 事件 的 未 来 性 质 做 出 判断 。 例 如 ， 预 测 橄榄 球 超 
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级 杯赛 的 获胜 者 或 预报 某 一 天 的 绝对 温度 。 

3. 聚 类 基于 已 知 特征 识别 事物 的 自然 分 组 。 例 如 ， 基 于 客户 的 人 口 统计 特征 和 过 往 购买 行 
为 将 其 划分 到 不 同 的 分 组 。 

4. 顺序 关系 模式 发 现时 序 事件 。 例 如 ， 对 于 已 经 拥有 支票 账户 的 现 有 银行 客户 ， 可 以 预测 
其 将 在 一 年 内 开 立 储蓄 存款 户头 ， 并 在 随后 开 立 投资 户头 。 

几 个 世纪 以 来 ， 人 们 一 直 用 手工 方法 从 数据 中 提取 模式 。 但 现代 数据 量 的 增长 产生 了 对 自 
动 化 方法 的 需求 。 由 于 数据 集 的 规模 和 复杂 度 都 在 增长 ， 所 以 直接 手工 数据 分 析 越 来 越 多 地 融 
和 人 采用 复杂 方法 论 、 方 法 和 算法 的 间接 自动 化 数据 处 理工 具 。 目 前 ， 通 常 将 这 种 对 于 大 数据 集 的 
自动 化 和 半自动 化 处 理 方法 的 演变 称 为 数据 挖 气 。 

一 般 而 言 ， 数 据 挖掘 任务 主要 可 以 分 为 3 大 类 : 预测 、 关 联 和 聚 类 。 根 据 其 从 历史 数据 中 提 
取 模 式 的 方法 ,又 可 以 将 数据 挖掘 学 习 算 法 分 为 有 监督 的 和 无 监督 的 。 有 监督 的 学 习 算 法 中 ， 训 
练 数 据 既 包括 描述 属性 〈 即 独立 变量 或 决策 变量 ) ， 也 包括 类 属性 〈 即 输出 变量 或 结果 变量 ) 。 
相反 ， 无 监督 的 学 习 算法 中 ， 训 练 数据 仅 包括 描述 属性 。 图 4-4 描述 了 一 个 简单 的 数据 挖掘 任务 
分 类 体系 ， 以 及 每 种 数据 挖掘 任务 的 学 习 方 式 和 基本 算法 。 
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期 望 最 大 化 Apriori 算 法 ， 基 于 图 的 匹配 
算法 
















Apriori 算 法 ，FP-Growth 技 术 











无 监督 的 K- 均 值 ，ANN/SOM 


无 监督 的 K- 均 值 ， 最 大 期 望 


图 4-4 数据 挖掘 任务 分 类 体系 


预测 Prediction 通常 指 预告 未 来 的 行为 。 它 不 同 于 考虑 经 验 、 观 点 和 其 他 相关 信息 而 进行 
预言 的 简单 猜测 。 常 与 Prediction 联系 的 一 个 术语 是 forecasting。 虽 然 很 多 人 认为 这 两 个 术语 是 同 
义 的 ,但 两 者 之 间 还 是 存在 细微 却 很 重要 的 区 别 。Prediction 在 很 大 程度 上 是 基于 经 验 和 意见 的 ， 
而 forecasting 则 基于 数据 和 模型 。 也 就 是 说 ， 为 可 靠 起 见 ， 应 当 将 guessing，predicting 和 forecas- 
ting 这 些 相关 术语 分 别 单列 。 在 数据 挖掘 术语 中 ，prediction 和 forecasting 可 以 作为 同 义 语 使 用 ， 
通常 使 用 prediction 表达 预测 行为 。 按 照 所 预测 的 属性 ， 预 测 又 可 具体 分 为 分 类 预测 (例如 明日 
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天 气 ， 所 预测 的 是 事物 类 别 ， 可 以 是 “雨天 ”或 “晴天 ”) 和 回归 分 析 预 测 (例如 明日 气温 ， 
所 预测 的 是 一 个 实数 ,例如 “65”)。 

分 类 ”分 类 或 者 称 有 监督 的 归纳 ， 可 能 是 最 常见 的 数据 挖掘 任务 。 分 类 的 目标 在 于 通过 分 
析 数 据 库 中 存储 的 历史 数据 ， 自 动 生成 未 来 行为 的 预测 模型 。 所 得 到 的 模型 是 对 训练 数据 集 记 
录 的 概括 ， 能 够 帮助 识别 预定 义 的 类 。 人 们 希望 模型 能 够 用 于 预测 其 他 未 分 类 记录 的 类 别 。 同 时 
更 重要 的 是 ， 希 望 模型 能 够 对 未 来 实际 事件 的 类 别 进 行 预测 。 

常用 的 分 类 工具 包括 神经 网 络 、 决 策 树 〈 起 源 于 机 器 学 习 ) 、 逻 辑 回归 和 判别 分 析 〈 起 源 于 
传统 统计 学 ) 。 还 有 一 些 新 兴 的 分 类 工具 ， 例 如 粗糙 集 、 支 持 向 量 机 和 遗传 算法 。 基 于 统计 学 的 
分 类 技术 〈 例 如 逻辑 回归 和 判别 分 析 ) ， 由 于 其 数据 假设 〈 例 如 独立 性 和 正规 性 ) 不 切实 际 而 受 
到 批评 ， 所 以 这 限制 了 其 在 分 类 数据 挖掘 项 目 中 的 应 用 。 

神经 网 络 是 一 种 流行 的 机 器 学 习 算法 (4.5 小 节 对 其 进行 详细 介绍 ) ， 其 开发 了 一 种 类 似 人 
类 大 脑 生物 神经 网 络 的 数学 结构 ， 能 够 学 习 以 结构 化 数据 集 表 达 的 过 往 经 验 。 当 变量 的 数目 非 
常 多 ， 且 变量 之 间 的 关系 非常 复杂 而 不 精确 时 ， 神 经 网 络 算法 特别 有 效 。 神 经 网 络 算法 也 有 其 劣 
势 。 例 如 ， 通 常 很 难为 神经 网 络 得 出 的 预测 结果 找到 合适 的 理由 。 同 时 ， 神 经 网 络 要 求 更 多 的 数 
据 训 练 。 不 幸 的 是 ， 当 数据 量 增长 时 ， 训 练 所 耗费 的 时 间 将 呈 指 数 级 增长 。 因 此 ， 神 经 网 络 不 能 
基于 很 大 的 数据 集 进行 训练 。 这 些 因 素 限 制 了 神经 网 络 在 数据 充足 环境 中 的 应 用 。 

决策 树 算法 根据 输入 变量 值 将 数据 分 为 有 限 数 量 的 类 别 。 决 策 树 本 质 上 是 一 种 条 件 语句 的 层次 结 
构 ， 因 此 其 效率 显著 高 于 神经 网 络 。 决 策 树 非常 适合 于 分 类 数据 和 区 间 型 数据 。 所 以 ， 对 于 决策 树 算 
法 中 遇 到 的 连续 变量 ， 需 要 先 对 其 进行 离散 化 ， 也 就 是 将 连续 变量 值 转换 为 取 值 范围 或 类 别 。 

规则 归纳 也 是 一 种 相关 的 分 类 工具 。 和 决策 树 算 法 不 同 的 是 ， 规 则 归纳 算法 中 的 条 件 语 句 
是 直接 从 训练 数据 中 归纳 得 出 的 ， 而 非 一 种 层次 结构 。 还 有 一 些 较 新 的 其 他 技术 ， 如 SVM、 粗 
糙 集 和 遗传 算法 也 逐渐 加 入 分 类 算法 的 阵营 ， 代 表 先 进 的 智能 系统 。 

聚 类 ” 聚 类 算法 将 事物 集合 〈 例 如 对 象 和 结构 化 数据 集中 的 事件 ) 分 割 成 多 个 部 分 (或 自 
然 分 组 ) ， 每 一 部 分 的 内 部 成 员 之 间 共 有 某 些 相似 特征 。 和 分 类 不 同 ， 聚 类 中 的 类 别 标签 是 未 知 
的 。 选 定 算法 根据 数据 集中 的 事物 特征 识别 其 共同 点 ， 然 后 建立 聚 类 。 由 于 聚 类 是 由 启发 式 算法 
确定 的 ， 而 且 对 于 同一 数据 集 ， 不 同 的 聚 类 算法 可 能 给 出 不 同 的 聚 类 结果 ， 所 以 在 实际 应 用 聚 类 
结果 以 前 ， 有 必要 由 专家 对 其 进行 解释 或 可 能 的 修正 。 所 识别 的 合理 的 聚 类 结果 可 以 用 于 对 新 
数据 进行 分 类 和 解释 。 

不 足 为 奇 的 是 ， 聚 类 算法 中 也 包括 优化 。 聚 类 的 目标 在 于 创造 分 组 ， 使 所 生成 分 组 的 内 部 成 员 之 
间 相 似 度 最 高 ， 而 不 同 组 成 员 之 间 的 相似 度 最 低 。 最 常用 的 聚 类 技术 包括 来 源 于 统计 学 的 k -均值 算法 
和 来 源 于 机 器 学 习 的 自 组 织 映射 算法 ， 后 者 是 Kohonen 在 1982 年 开发 的 一 种 独特 的 神经 网 络 结构 。 

企业 常常 应 用 其 数据 挖掘 系统 展开 聚 类 分 析 ， 有 效 地 进行 市 场 细 分 。 聚 类 分 析 是 一 种 识别 
物品 类 别 的 方法 ， 同 一 聚 类 中 的 物品 之 间 比 其 他 类 中 的 物品 具有 更 多 的 共同 点 。 这 可 以 用 于 客 
户 分 类 ， 并 引导 适合 的 产品 销售 ， 在 合适 的 时 间 、 以 合适 的 格式 和 价格 将 其 卖 给 特定 的 细 分 客户 
群体 。 聚 类 分 析 还 应 用 于 识别 事件 或 对 象 的 自然 分 组 ， 以 帮助 识别 和 描述 这 些 分 组 的 共同 特征 。 
应 用 案例 4. 3 描述 了 聚 类 分 析 是 如 何 与 其 他 数据 挖掘 技术 结合 来 识别 意外 事故 原因 的 。 

关联 关联 ， 或 数据 挖 据 中 的 关联 规则 学 习 ， 是 旨 在 从 大 型 数据 库 中 发 现 变量 间 有 趣 关系 
的 一 种 流行 的 成 熟 技 术 。 得 益 于 条 码 扫描 仪 等 自动 信息 采集 技术 ， 使 用 关联 规则 算法 从 超市 的 
销售 点 (POS) 系统 的 大 规模 交易 记录 中 发 现 产 品 规律 ， 在 零售 业 中 已 经 是 很 平常 的 知识 发 现任 
务 。 在 零售 业 中 的 关联 规则 挖掘 通常 称 为 购物 篮 分 析 。 

从 关联 规则 挖掘 中 衍生 了 两 种 广 为 使 用 的 工具 : 链接 分 析 和 序列 挖掘 。 链 接 分 析 能 够 自动 
发 现 众 多 研究 对 象 之 间 的 联系 ， 如 Web 网 页 之 间 的 联系 和 学 术 著 作 作者 群体 之 间 的 引用 关系 。 
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序列 挖掘 则 通过 分 析 事 件 的 发 生 顺 序 来 识别 事件 之 间 的 时 间 关 系 。 关 联 规则 挖掘 中 使 用 的 算法 
包括 流行 的 Apriori (识别 频繁 项 目 42) 、FP- Growth 、OneR ZeroR 和 Eclat, 

可 视 化 和 时 间 序 列 预测 ”可视化 和 时 间 序 列 预测 是 与 数据 挖掘 相关 的 两 种 技术 。 将 可 视 化 
技术 和 其 他 数据 挖掘 技术 相 结合 ， 可 以 获得 对 挖掘 结果 更 清晰 的 理解 。 时 间 序 列 预测 利用 一 段 
时 间 中 获取 存储 的 同一 变量 的 系列 取 值 建立 模型 ， 并 推测 同一 现象 的 未 来 取 值 。 

假设 驱动 型 数据 挖掘 和 发 现 驱动 型 数据 挖 据 ”数据 挖掘 可 以 是 假设 驱动 的 ， 也 可 以 是 发 现 驱 动 
的 。 假 设 驱 动 型 数据 挖掘 从 用 户 提出 的 某 一 命题 开始 ， 然 后 对 该 命题 真实 性 进行 求证 。 例 如 ， 一 位 
营销 经 理 可 能 从 提出 如 下 命题 开始 数据 挖掘 :“DVD 播放 机 的 销售 和 电视 机 的 销售 有 关联 吗 ?” 

发 现 驱动 型 数据 控 据 ”发现 隐 含 在 数据 集中 的 模式 、 关 联 和 其 他 关系 。 这 种 数据 挖掘 可 以 
发 现 组 织 预先 未 知 、 甚 至 未 曾 想 过 的 事实 。 


4. 1 节 复 习题 


1. 给 出 数据 挖掘 的 定义 。 为 什么 数据 挖 握 有 很 多 不 同 的 名 称 和 定义 ? 
2. 近来 有 哪些 因素 促进 了 数据 挖掘 的 广泛 应 用 ? 

3. 数据 挖掘 是 一 门 新 学 科 吗 ? 请 给 出 解释 。 

4. 请 给 出 主要 的 数据 挖掘 方式 和 算法 。 

5. 请 说 明 主要 数据 挖掘 方式 之 间 的 关键 区 别 。 





应 用 案例 4. 3 机 动车 事故 与 司机 分 心 


驾驶 者 集中 注意 力 对 于 公路 交通 安全 至 关 重 要 。 美 国 国 家 公路 交通 安全 管理 局 于 
1996 年 发 布 的 一 项 研究 结果 表明 ， 大 约 25% ~30% 的 车 祸 伤害 是 由 于 驾驶 者 注意 力 不 集 
中 造成 的 。1999 年 ， 由 美国 国家 统计 分 析 中 心 开 发 的 灾祸 分 析 报 告 系统 (Fatality Analy- 
sis Reporting System, FARS) 显示 ， 司 机 分 心 造成 了 1% 的 致命 车 祸 (死亡 4462 人 ) 。 

一 项 旨 在 从 交通 事故 中 提取 司机 分 心 因素 模式 的 研究 已 经 展开 。 该 研究 利用 数据 挖 
WARA FARS 提供 的 车 祸 数 据 中 提取 出 各 种 分 心 因素 之 间 的 关联 关系 。 使 用 了 3 种 数 
据 挖 握 技 术 (Kohonen 神经 网 络 、 决 策 树 和 多 层 感 应 神经 网 络 ) 来 发 现 与 高 事故 率 相 关 
并 可 能 对 其 做 出 解释 的 不 同 种 分 心 因素 组 合 。Kohonen 神经 网 络 识别 自然 聚 类 ， 并 发 现 
数据 集中 输入 变量 的 模式 。 决 策 树 探讨 了 连续 事件 中 每 一 事故 的 作用 并 对 其 进行 分 类 ， 
同时 也 提示 了 驾驶 员 分 心 和 身体 /精神 状况 之 间 的 关系 。 最 后 ， 对 多 层 感 应 神经 网 络 模型 
进行 训练 和 测试 ， 以 找到 交通 事故 中 驾驶 员 注 意 力 不 集 中 和 其 他 驾驶 员 相 关 因 素 之 间 的 
关系 。 使 用 SPSS 中 的 Clementine 对 FARS 数据 库 中 获取 的 数据 进行 3 种 模型 的 挖 气 。 

预测 分 析 模 型 识别 出 由 于 注意 力 不 集 中 导致 车 祸 发 生 的 事故 中 的 1255 名 驾驶 员 。 
车 尾 追 接 、 正 面相 撞 、 拦 腰 相 撞 等 ， 都 是 对 车 祸 发 生 和 其 严重 程度 有 重要 影响 的 因素 。 

来 源 : Based on W. S. Tseng, H. Nguyen, J. Liebowitz, and W. Agresti, “ Distractions and Motor Vehicle Accidents; Data 

Mining Application on Fatality Analysis Reporting System( FARS) Data Files,” Industrial Management & Data Sys- 
tems ,Vol 105 ,No. 9 , January 2005 , pp. 1188 - 1205 ; and J. Liebowitz, “ New Trends in Intelligent Systems , ” Presen- 


tation made at University of Granada, doctor-si. ugr. es/seminario2006/presentaciones/jay. ppt( accessed May 
2009 ). 











4.2 数据 挖 据 应 用 
数据 挖掘 已 经 成 为 一 种 颇 受 欢迎 的 复杂 商业 问题 解决 工具 。 在 很 多 领域 中 ， 数 据 挖掘 应 用 


第 4 章 商务 智能 中 的 数据 挖 气 - 113 


被 证 明 非 常 成 功 有 效 ， 以 下 列 出 了 其 中 一 些 代表 实例 。 很 多 数据 挖掘 商业 应 用 的 目标 在 于 解决 

当前 迫切 问题 ,或 者 寻求 新 兴 商 业 机 会 以 形成 可 持续 竞争 优势 。 

e 客户 关系 管理 ”客户 关系 管理 (Customer Relationship Management, CRM) 是 传统 营销 的 
新 兴 扩 展 。CRM 的 目标 在 于 通过 对 客户 需求 的 深入 理解 ， 和 客户 建立 一 对 一 关系 。 由 于 
客户 关系 是 在 各 种 交易 过 程 (例如 产品 咨询 、 销 售 、 服 务 请 求 和 保修 电话 ) 中 长 期 形成 
的 ， 所 以 积累 的 数据 量 非常 巨大 。 结 合 人 口 统计 和 社会 经 济 属性 ， 这 些 包含 丰富 信息 的 
数据 可 以 用 于 (1) 识别 最 可 能 购买 或 响应 新 产品 和 服务 的 客户 〈 即 客户 概况 描述 ) ; 
(2) 理解 客户 流失 的 根本 原因 以 改善 客户 维系 〈 即 流失 分 析 ) ; (3) 发 现 产 品 和 服务 的 
时 变 关 联 以 最 大 限度 地 提高 销售 额 和 获取 客户 价值 ; (4) 识别 利润 最 高 的 客户 及 其 需求 
偏好 ， 从 而 加 强 客 户 关 系 ， 提 高 销售 额 。 

。 银行 业 ”数据 挖掘 在 银行 业 的 作用 如 下 : (1) 通过 精确 预测 最 有 可 能 的 欠 款 者 ， 实 现 借 

贷 流 程 自动 化 ; (2) 检测 信用 卡 和 网 上 银行 交易 欺诈 ; (3) 通过 向 客户 提供 其 最 有 可 能 

购买 的 产品 和 服务 ， 识 别 客户 价值 最 大 化 的 途径 ; (4) 通过 精确 预测 银行 实体 (例如 

ATM 机 、 银 行 网 点 ) 的 现金 流 ， 优 化 现金 回报 。 

零售 业 和 物流 “在 零售 业 ， 数 据 挖掘 可 用 于 (1) 精确 预测 特定 零售 网 点 的 销售 额 以 确 

定 正确 的 库存 水 平 ; (2) 通过 购物 篮 分 析 ， 识 别 不 同 产品 之 间 的 销售 关系 ， 从 而 改善 商 

店 布局 ， 优 化 商品 促销 ; (3) 基于 季节 和 环境 条 件 ， 预 测 不 同类 型 产品 的 消费 水 平 ， 以 

优化 物流 并 最 大 限度 地 提高 销售 额 ; (4) 通过 分 析 RFID 等 传 感 数据 ， 发 现 产 品 〈 特 别 

是 易 腐 、 易 受 污染 ， 保 存 期 有 限 的 产品 ) 流通 过 程 中 的 有 趣 模式 。 

制造 生产 ”数据 挖掘 在 制造 业 可 用 于 (1) 利用 传 感 数据 预测 机 械 故 障 ， 实 现 基 于 条 件 

的 维修 保养 ; (2) 识别 生产 系统 异常 和 共性 ， 以 优化 生产 能 力 ; G) 发 现 改进 产品 质量 

的 新 模式 。 

e 证 券 交 易 证 券 经 纪 人 应 用 数据 挖掘 (1) 预测 特定 债券 价格 何 时 变动 ， 变 动 多 少 ; 
(2) 预测 股票 波动 的 范围 和 方向 ; (3) 评估 特定 问题 或 事件 对 于 市 场 整体 的 影响 ; (4) 
识别 并 防止 证 券 交 易 中 的 欺诈 行为 。 

© 保险 ”保险 业 应 用 数据 挖掘 技术 (1) 预测 财产 索赔 额 和 医疗 保险 费用 ， 以 更 好 地 进行 
保险 业务 规划 ; (2) 基于 客户 和 索赔 数据 分 析 ， 优 化 费 率 计 划 ; (3) 预测 哪些 客户 更 有 
可 能 购买 新 推出 的 特色 保险 ; (4) 识别 并 防止 发 生 不 合理 的 理赔 付款 和 欺诈 。 

。 计算 机 软 硬 件 ”数据 挖掘 可 用 于 (1) 及 早 预测 磁盘 故障 ; (2) 识别 并 过 滤 不 受 欢迎 的 
Web 内 容 和 电子 邮件 信息 ; (3) 检测 并 阻止 计算 机 网 络 安全 隐患 ; (4) 识别 可 能 不 安全 
的 软件 产品 。 

° 政府 和 国防 部 门 ” 在 军事 领域 ,数据 挖 据 也 有 很 多 应 用 。(1) 预测 军事 人 员 和 设备 的 流 
动 成 本 ; (2) 预测 对 手 行动 以 制定 更 成 功 的 军事 交往 战略 ; (3) 预测 资源 消耗 以 支持 更 
好 的 规划 和 预算 ; (4) 识别 军事 行动 中 的 独特 经 验 、 策 略 和 教训 ， 以 实现 组 织 中 更 好 的 
知识 共享 。 

。 旅游 业 ( 航空、 酒店/ 度假 村 、 租 车 公司 ) ”数据 挖掘 在 旅游 业 有 很 多 成 功 应 用 。(1) 预 
测 各 种 不 同 服务 (飞机 的 座位 类 型 、 酒 店 / 度 假 村 的 房间 类 型 、 租 车 公司 的 车 辆 类 型 ) 
的 销售 额 ， 从 而 为 随时 间 变 化 的 交易 提供 最 佳 的 价格 服务 ,使 收益 最 大 化 〈( 即 通常 所 说 
的 收益 管理 ) ; (2) 进行 不 同 地 点 的 需求 预测 ， 以 更 好 地 配置 有 限 的 组 织 资 源 ; (3) 识 
别 利润 最 高 的 客户 并 为 其 提供 个 性 化 服务 ， 以 保持 回头 客 ; (4) 识别 员工 流失 的 根本 原 
因 ， 并 采取 有 针对 的 行动 以 保持 有 价值 的 员工 。 

。 卫生 保健 ”数据 挖掘 有 很 多 卫生 保健 应 用 ， 其 可 用 于 (1) 识别 没有 医疗 保险 的 人 群 以 
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及 造成 这 种 不 良 情况 的 因素 ; (2) 识别 不 同 疗法 之 间 的 成 本 收益 关系 ， 以 制定 更 有 效 的 
策略 ; (3) 预测 不 同 服务 网 点 的 需求 水 平和 需求 时 间 ， 以 优化 组 织 资源 配置 ; (4) 理解 
客户 和 员工 流失 的 深层 原因 。 
。 医学 ”医学 中 的 数据 挖掘 应 用 可 以 视 为 传统 医学 研究 (本质 上 主要 是 临床 和 生物 ) WE 
贵 补 充 。 数 据 挖掘 分 析 可 以 1) 识别 新 模式 以 改进 癌症 患者 的 存活 率 ; (2) 预测 器 官 
移植 患者 的 成 功率 ， 以 更 好 地 制定 器 官 捐赠 匹配 策略 ; (3) 识别 人 类 染色 体 〈 被 称 为 基 
FA) 中 不 同 基 因 的 功能 ; (4) 发 现 疾病 和 症状 以 及 成 功 治疗 手段 之 间 的 关系 ， 以 帮助 
医疗 人 员 及 时 可 靠 地 进行 正确 决策 。 
娱乐 业 ”在 娱乐 业 ， 数 据 挖掘 被 成 功 地 应 用 于 〈1) 通过 电视 观众 数据 分 析 ， 确 定 黄金 
时 有 段 播放 什么 电视 节目 ， 以 及 何 时 插播 广告 以 使 收益 最 大 化 ; (2) 在 电影 制作 以 前 ， 预 
测 其 财务 表现 ， 以 帮助 投资 决策 ， 优 化 收入 回报 ; (3) 预测 不 同时 间 和 地 点 的 需求 ， 以 
更 好 地 制定 娱乐 事件 时 间 表 和 优化 资源 配置 ; (4) 制定 最 佳 定价 策略 ,使 收益 最 大 化 。 
。 国土 安全 和 执法 ”在 国土 安全 和 执法 领域 也 有 很 多 数据 挖掘 应 用 。 数 据 挖 掘 经 常 被 用 于 
(1) 识别 恐怖 分 子 行为 模式 〈 最 近 的 一 个 例子 是 应 用 数据 挖掘 进行 恺 怖 分 子 活 动 资 金 追 
踪 ， 参 见 应 用 案例 4.4); (2) 发 现 犯 罪 模式 〈 例 如 地 点 、 事 件 、 犯 罪行 为 和 其 他 相关 属 
性 ) ， 帮 助 及 时 破案 ; (3) 通过 分 析 特 殊 用 途 的 传 感 数据 ， 预 测 并 消除 对 国家 关键 基础 设 
施 可 能 的 生化 攻击 ; (4) 识别 并 阻止 对 关键 信息 基础 设施 的 恶意 攻击 ( 常 被 称 为 信息 战 ) 。 
。 运动 ”在 美国 ,数据 挖掘 被 用 于 改善 NBA 的 球 队 表现 。NBA 开发 了 一 个 基于 PC 的 数据 挖掘 
应 用 一 一 Advanced Scout， 给 教练 组 人 员 使 用 ， 帮 助 发 现 篮球 赛 数据 中 的 有 趣 模式 。 将 这 些 模 
式 和 录像 带 关 联 ， 能 够 更 好 地 解释 这 些 模式 数据 。 详 见 Bhandari et al. (1997) 文献 。 





应 用 案例 4. 4 恐怖 组 织 筹资 活动 挖掘 


2001 FR EEEH Pow “9-11” AMREF, BAT AF ARARH SLE. 





美国 爱国 者 法 案 和 国土 安全 部 门 的 成 立 预示 了 信息 技术 和 数据 挖 握 技 术 在 检测 洗钱 和 其 
他 形式 的 恐怖 分 子 筹资 活动 中 的 潜在 应 用 。 一 直 以 来 ， 执 法 部 门 只 关注 通过 银行 和 其 他 
金融 服务 机 构 正 常 交易 中 的 洗钱 活动 。 
现在 ， 利 用 国际 贸易 价格 作为 恶 怖 活动 筹资 工具 ， 已 经 成 为 执法 部 门 的 关注 焦点 。 
利用 国际 贸易 ， 洗 钱 者 可 以 从 一 个 国家 悄悄 转 出 钱 ， 而 不 被 政府 注意 。 这 主要 是 通过 高 
估 进 口 货 价格 ， 而 低估 出 口 货 价 格 实现 。 例 如 ， 国 内 的 进口 商 可 以 和 国外 出 口 商 合伙 ， 
对 进口 货 过 高 估价 ， 从 而 将 钱 从 祖国 转移 ， 进 行 海关 欺诈 、 偷 漏 所 得 税 和 洗钱 犯罪 。 其 
中 的 国外 出 口 商 可 能 是 恶 怖 组 织 成 员 。 
数据 挖掘 技术 主要 对 美国 商务 部 和 其 他 商业 相关 实体 的 进出 口交 易 数 据 进 行 分 析 。 
超出 上 限 的 进口 价格 和 低 于 下 限 的 出 口 价格 数据 都 被 追踪 ， 而 关注 点 主要 在 于 公司 之 间 
不 正常 的 转让 价格 造成 的 应 纳税 收入 转移 和 偷税 漏税 。 这 种 价格 差异 可 能 和 偷 漏 所 得 税 、 
洗钱 ， 或 丽 怖 分 子 筹资 竺 相关。 当然， 贸易 数 据 库 错 误 也 可 能 导致 价格 差异 。 
数据 挖掘 将 提高 数据 评估 的 效率 。 反 过 来 ， 这 也 有 助 于 和 下 怖 分 子 的 斗争 。 信 息 技 
本 和 数据 挖 握 技 术 在 金融 交易 中 的 应 用 将 造就 更 有 用 的 情报 资料 。 
来 源 : Based on J. S. Zdanowic, “ Detecting Money Laundering and Terrorist Financing via Data Mining,” Communications of 
the ACM, Vol. 47 ,No. 5 ,May 2004 , p. 53 ;and R. J. Bolton, “Statistical Fraud Detection; A Review,” Statistical Sci- 
ence , Vol. 17 ,No. 3 , January 2002 , p. 235. 
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4.2 节 复 习题 


1. 数据 挖掘 的 主要 应 用 领域 有 哪些 ? 

2. 说 出 至 少 5 个 数据 挖掘 具体 应 用 ， 并 列 出 这 些 应 用 的 5 点 共同 特征 。 
3. 你 认为 当前 最 重要 的 数据 挖掘 应 用 领域 是 什么 ? 为 什么 ? 

4. 你 能 说 出 本 节 中 未 提 及 的 其 他 数据 挖掘 应 用 领域 吗 ? 请 解释 。 


4.3 数据 挖掘 流程 


数据 挖掘 项 目的 系统 实施 通常 要 求 遵 循 一 般 的 流程 。 基 于 这 方面 的 最 佳 实践 ， 数 据 挖掘 研 
究 人 员 和 从 业 人 员 提 出 了 工作 流 或 简单 
的 逐步 方法 等 流程 ， 以 最 大 限度 地 提高 
数据 挖掘 项 目 实施 的 成 功率 。 其 中 一 些 
流程 已 经 被 标准 化 ， 以 下 列 出 了 其 中 应 
用 最 广泛 的 几 种 流程 。 

数据 挖掘 跨行 业 标准 流程 ( Cross- 
Industry Standard Process for Data Mining 
CRISP-DM) 可 以 认为 是 应 用 最 为 广泛 
的 一 种 标准 化 数据 挖掘 流程 。 该 标准 于 
20 世纪 90 年 代 中 期 由 一 个 欧洲 企业 联 
盟 提 出 ， 目 的 是 建立 一 个 数据 挖掘 的 非 
专用 标准 方法 (CRISP- DM, 2009), 
图 4-5 描 述 了 该 流程 ， 包 括 6 THR, 
以 业务 和 数据 挖掘 项 目 〈 即 应 用 领域 ) 
需求 的 深入 理解 开始 ， 以 能 够 满足 特定 
业务 需求 的 解决 方案 部 署 结束 。 尽 管 这 
些 步 又 是 顺序 进行 的 ， 但 通常 仍然 存在 da CRERTNLA HORE 
诸多 回 湖 。 由 于 数据 挖掘 由 经 验 和 实验 来 源 : 摘自 CRIP-DM. org. 
驱动 ， 所 以 依赖 于 问题 的 实际 状况 和 分 析 者 的 知识 经 验 ， 导 致 整个 数据 挖掘 流程 可 能 非常 迁 回 
( 即 可 能 存在 步骤 之 间 的 多 次 来 回 反复 ) 和 耗 时 。 因 为 后 续 步 又 是 建立 在 前 面 步骤 的 结果 基础 
上 ， 所 以 应 当 特 别 注意 前 面 的 步骤 ， 避 免 整个 研究 从 一 开始 就 进入 错误 路 径 。 


4.3.1 步骤 1: 理解 业务 


理解 研究 目的 是 任何 数据 挖掘 研究 的 关键 要 素 。 要 回答 这 个 问题 ， 首 先 要 透彻 理解 对 新 知识 的 
管理 需求 ， 并 清晰 定义 将 要 进行 研究 的 商业 目标 。 类 似 的 问题 ， 如 “最 近 我 们 流失 到 竞争 对 手 的 客 
户 具备 哪些 共同 特征 ?” 或 者 “我 们 客户 的 典型 概况 是 怎样 的 ? 每 位 客户 能 为 我 们 创造 多 少 价值 ?” 
都 需要 解决 。 接 下 来 ， 应 当 制 定 发 现 这 些 知识 的 项 目 计 划 ， 分 别 指定 负责 收集 数据 、 分 析 数 据 和 报 
告 结 果 的 负责 人 。 在 这 样 的 早期 阶段 ， 至 少 应 当 在 较 高 层次 建立 具有 大 概 数目 的 研究 预算 。 


4.3.2 步骤 2: 理解 数据 


数据 挖掘 研究 主要 是 处 理 明 确 的 特定 业务 任务 ， 而 不 同 的 业务 任务 需要 不 同 的 数据 集合 。 
在 理解 业务 以 后 ， 数 据 挖掘 过 程 的 主要 活动 是 从 很 多 可 用 数据 库 中 识别 相关 数据 。 在 数据 辨识 
和 选择 阶段 ， 需 要 考虑 很 多 关键 要 点 。 首 要 的 是 ,分 析 者 应 当 清 晰 简洁 地 描述 数据 挖掘 任 务 ， 以 
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识别 出 最 为 相关 的 数据 。 例 如 ， 一 个 零售 业 的 数据 控 气 项 目 可 能 想 要 识别 购买 应 季 服 装 的 女性 
客户 消费 行为 ， 依 据 是 人 口 统计 资料 、 信 用 卡 交易 记录 和 社会 经 济 属性 。 此 外 ， 分 析 者 应 当 深 入 
理解 各 个 数据 源 〈 例 如 ， 相 关 数 据 存储 在 哪里 ? 以 何 种 形式 存储 ? 数据 收集 过 程 是 人 工 的 还 是 
自动 的 ? 谁 收集 了 这 些 数据 ? 数据 多 长 时 间 更 新 一 次 ?) 和 各 个 变量 。 例如， 最 相关 的 变量 有 
哪些 ? 是 否 存在 同 义 或 同音 不 同 义 的 变量 ? 各 个 变量 彼此 之 间 是 否 独 立 ? 变量 之 间 是 否 存在 重生 
或 冲突 信息 ?) 

为 了 更 好 地 理解 数据 分 析 者 经 常 利 用 各 种 统计 技术 和 图 形 技 术 ， 包括 对 每 个 变量 的 简单 
统计 摘要 (例如 ， 对 于 数值 变量 ， 可 以 计算 其 平均 值 、 最 大 值 、 最 小 值 、 中 间 数 、 标 准 差 ; 对 
于 分 类 变量 ， 可 以 计算 其 模式 和 频率 表 ) 、 相 关 分 析 、 散 点 图 、 直 方 图 和 方块 图 。 应 当 仔 细 辨 识 
选取 数据 源 和 相关 变量 。 这 样 ， 数 据 挖掘 算法 更 容易 快速 发 现 有 用 的 知识 模式 。 

数据 挖掘 的 数据 源 可 能 是 多 样 的 。 通 常 ， 商 业 应 用 的 数据 源 包 括 人 口 统计 数据 〈 如 收入 、 
教育 程度 、 家 庭 人 口 和 年 龄 ) 、 社 会 学 数据 〈 如 爱好 、 俱 乐 部 会 籍 和 娱乐 ) 、 交 易 数据 (销售 记 
录 、 信 用 卡 消费 、 签 发 支票 ) 等 。 

数据 可 以 是 定性 的 或 定量 的 。 定 量 数据 使 用 数值 进行 度量 ,分 为 离散 型 (如 整数 ) 和 连续 
型 (如 实数 )。 定 性 数据 ， 或 称 分 类 数据 包括 名 目 数据 和 序数 数据 。 名 目 数据 具有 有 限 个 无 序 
值 〈 例 如 性 别 有 2 个 可 能 值 : 男 或 女 ) 。 序 数 数 据 具 有 有 限 个 有 序 值 。 例 如 ， 客 户 信用 等 级 是 序 
数 数 据 ， 其 值 可 以 是 优秀 、 一 般 和 不 好 。 

定量 数据 很 容易 由 某 种 概率 分 布 表 达 。 概 率 分 布 描述 了 数据 的 分 散 形 态 。 例 如 ， 正 态 分 布 数 
据 是 对 称 的 ， 通 常 指 的 是 一 个 钟 形 曲线 。 定 性 数据 可 以 用 数字 编码 ， 然 后 由 频率 分 布 描述 。 一 且 
已 经 按照 数据 挖掘 业务 需求 完成 了 相关 数据 源 选择 ， 就 应 当 继 续 进 行 数据 预 处 理 了 。 


4.3.3 步骤 3: 数据 准备 


数据 准备 也 常 被 称 为 数据 预 处 理 ， 其 目的 是 处 理 前 一 阶段 识别 的 数据 ， 为 后 面 的 数据 挖掘 
算法 分 析 做 好 准备 。 和 CRISP- DM 中 的 其 他 步骤 f 
相 比 ， 数 据 预 处 理 最 为 耗 时 费力 。 普 遍 认 为 ， 这 
一 步 大 约 耗费 整个 数据 挖掘 项 目 80% 的 时 间 。 造 




















成 这 一 步 又 耗费 如 此 巨大 的 原因 是 ， 现 实 世界 中 
的 数据 一 般 不 完整 (缺失 属性 值 、 缺 少 所 感 兴趣 z .数据 收集 
的 菜 些 属性 或 者 仅 包含 汇总 数据 ) 、 有 噪声 ( 包 sia Bea 
含 错误 或 离 群 值 ) 、 不 一 致 (代码 或 名 称 存在 差 Beisel 
异 ) 。 如 图 4-6 所 示 ， 要 将 现实 世界 的 原始 数据 转 数据 清洗 - 减低 数据 唉 音 
换 为 可 挖掘 的 数据 集 ， 主 要 需要 完成 4 个 步骤。 “eens 
在 数据 预 处 理 的 第 一 阶段 ， 首 先 从 前 面 的 步 数据 标准 化 
OR (EP CRISP-DM 过 程 中 的 数据 理解 过 程 ) 所 识 aan 
别 出 的 数据 源 中 收集 相关 数据 。 然 后 基于 对 数据 ee 
的 深入 理解 过 滤 掉 不 必要 的 部 分 ， 筛 选 出 必要 的 . 减少 实例 数量 
记录 和 变量 ; 最 后 仍然 是 在 深入 理解 数据 的 基础 “平衡 偏 余数 据 
E, 恰当 处 理 同音 不 同 义 和 同 义 不 同名 的 情况 ， 
将 多 个 数据 源 的 数据 记录 进行 集成 。 。 


数据 预 处 理 的 第 二 阶段 是 数据 清洗 ， 这 一 步 
又 识别 并 处 理 数 据 集 的 值 。 在 有 些 情况 下 ， 数 据 
集中 的 缺失 值 是 不 正常 的 ， 需 要 对 其 进行 估算 ， 








格式 良好 的 
数据 
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填 上 其 最 可 能 的 值 ， 或 者 简单 忽略 该 值 ; 在 其 他 一 些 情况 下 ， 数 据 集 中 某 些 部 分 的 缺失 值 是 正常 
的 。 例 如 ， 处 于 收入 最 高 层 的 人 经 常 不 填写 家 庭 收入 一 栏 。 在 这 一 阶段 ， 分 析 者 还 要 识别 并 消除 
数据 中 的 噪声 值 (极端 值 )。 此 外 ， 应 当 利 用 领域 知识 或 专家 意见 对 数据 不 一 致 ( 变量 的 离 群 
值 ) 进行 处 理 。 

在 数据 预 处 理 的 第 三 阶段 进行 数据 转换 ， 以 便 更 好 地 完成 数据 处 理 。 例 如 ， 在 很 多 情况 下 ， 
所 有 变量 都 被 标准 化 到 一 个 特定 的 最 大 值 /最 小 值 区 间 中 ， 以 减轻 可 能 存在 的 个 别 大 数值 变量 
(例如 家 庭 收 入 ) 对 其 他 小 数值 变量 (例如 眷属 人 数 或 服务 年 限 ， 可 能 更 为 重要 ) 的 支配 偏向 。 
在 这 一 阶段 还 要 进行 数据 离散 或 (和 ) 数据 聚集 。 有 些 时 候 ， 要 将 数值 变量 转换 为 分 类 变量 
(例如 ， 低 、 中 、 高 ) ; 还 有 些 时 候 ， 利 用 概念 分 层 将 名 称 变量 的 独特 值 域 缩减 到 较 小 的 集合 中 ， 
以 使 数据 集 更 适合 计算 机 处 理 。 例 如 ， 对 于 一 个 指示 位 置 的 变量 ， 人 们 可 能 不 愿意 用 50 个 不 同 
州 的 名 称 ， 而 希望 使 用 几 个 大 的 区 域 作 为 变量 值 。 还 有 一 些 其 他 情况 ， 人 们 可 能 会 根据 已 有 变量 
生成 新 的 变量 ， 以 使 从 数据 集 的 变量 集合 中 得 到 的 信息 量 更 大 。 例 如 ， 在 器 官 移 植 数据 库 中 ， 人 
们 可 能 选择 使 用 一 个 单独 的 变量 来 表示 血型 匹配 (1: 匹配 ; 0: 不 匹配 ) ， 而 不 是 使 用 多 项 值 将 
捐助 者 和 接受 者 的 血型 值 分 开 表 示 。 这 种 简化 操作 一 方面 降低 了 数据 关系 的 复杂 度 ， 另 一 方面 
增 大 了 信息 量 。 

数据 预 处 理 的 最 后 一 阶段 是 数据 简化 。 尽 管 数据 挖掘 者 往往 希望 拥有 更 大 的 数据 集 ， 但 
过 多 的 数据 也 会 成 为 问题 。 简 单 来 说 ， 可 以 将 数据 挖掘 项 目 中 通常 使 用 的 数据 可 视 化 为 一 个 
二 维 平 面 文件 ， 包 括 变量 ( 列 数 ) 和 实例 /记录 ( 行 数 ) 。 在 有 些 情况 下 ， 例 如 图 像 处 理 和 含 
有 复杂 微 矩 阵 数据 的 基因 组 项 目 ， 可 能 拥有 相当 多 的 变量 ， 分 析 者 必须 将 变量 数量 缩减 到 可 
控 大 小 。 由 于 变量 被 视 为 从 不 同 角度 描述 现象 的 不 同 维度 ， 所 以 在 数据 挖掘 中 ， 这 一 过 程 通 
常 被 称 为 维度 缩减 。 虽 然 并 不 存在 完成 此 任务 的 单一 良 方 ， 但 还 是 可 以 利用 先前 发 表 的 文献 
发 现 、 咨 询 领域 专家 、 运 行 恰当 的 统计 测试 (例如 主 成 分 分 析 或 独立 成 分 分 析 ) ， 帮 助 完 成 维 
度 缩减 。 当 然 ， 最 好 是 综合 应 用 这 些 技术 ， 成 功 地 将 数据 维度 缩减 到 更 可 控 、 更 相关 的 数据 
Fo 

对 另 一 维度 〈 即 实例 数量 ) 而 言 ， 有 些 数据 集 可 能 包括 数 以 百 万 甚至 十 亿 计 的 记录 。 即 使 
计算 能 力 在 以 指数 级 增长 ， 但 处 理 如 此 巨大 数量 的 记录 仍然 是 不 切实 际 或 不 可 行 的 。 在 这 种 情 
况 下 ， 人 们 可 能 需要 对 数据 集 进 行 采样 以 供 分 析 。 数 据 采 样 的 基本 假设 是 数据 样本 将 包含 完整 
数据 集中 的 所 有 相关 模式 。 对 于 同 质数 据 集 ， 可 能 可 以 做 这 种 假设 ， 但 真实 世界 中 的 数据 很 少 是 
同 质 的 。 分 析 者 在 筛选 数据 子 集 时 应 当 非 常 慎重 ， 使 其 能 反映 完整 数据 集 的 本 质 ， 而 非 局 限于 特 
定 的 子 类 数据 。 数 据 通常 按 某 些 变量 进行 排序 ， 所 以 从 上 到 下 选取 的 数据 段 可 能 导致 数据 子 集 
对 索引 变量 的 特定 值 存在 偏见 。 因 此 ， 永 远 应 当 随 机 选取 样本 集合 记录 。 对 于 偏 斜 数据 ， 直 接 随 
机 取样 可 能 不 够 ,需要 分 层 取 样 ， 即 按 一 定 比 例 从 不 同 的 数据 子 类 中 选取 样本 数据 。 关 于 偏 斜 数 
据 ， 很 好 的 一 个 做 法 是 对 表达 较 少 的 数据 进行 超 取样 ， 或 对 表达 较 多 的 子 类 进行 从 采样 ， 以 平衡 
高 度 偏 斜 数据 。 已 有 研究 表明 ， 平 衡 数 据 集 生 成 的 预测 模型 往往 优 于 不 平衡 的 数据 集 (Wilson 
and Sharda, 1994), 

表 4-4 总 结 了 数据 预 处 理 的 实质 ， 描 述 了 数据 预 处 理 每 一 阶段 中 的 问题 、 任 务 和 常用 算法 。 

表 4-4 ”数据 预 处 理 各 阶段 任务 和 处 理 方法 一 览 


主要 任务 子 任务 常用 方法 
访问 和 收集 数据 SQL 查询 、 软 件 代 理 、Web 服务 


数据 整合 | ”筛选 和 过 涉 数据 | ”领域 专家 、SQL 查询 、 统 计 测试 
集成 和 统一 数据 | “SQL 查询、 领域 专家 、 本 体 驱 动 的 数据 映射 
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( 续 ) 
一 一 一 一 一 一 一 一 一 
主要 任务 子 任务 常用 方法 
处 理 数据 缺失 值 用 合适 值 (平均 数 、 中 间 值 、 最 小 值 / 最 大 值 、 模 式 等 ) 填充 缺失 值 ; 用 


常量 ， 例 如 “ML” 对 缺失 值 重新 编码 ; 删除 含 缺失 值 的 记录 ; 不 处 理 


| 识别 并 降低 数据 噪声 使 用 统计 技术 〈 例 如 平均 值 或 标准 差 ) 或 聚 类 分 析 技 术 识 别 数据 极端 值 ; 
数据 清洗 删除 或 采用 分 级 、 回 归 或 简单 平均 等 方法 消除 发 现 的 极端 值 


| 一 o 
发 现 并 消除 错误 数据 识别 错误 数据 值 〈 非 极端 值 ) ， 例 如 奇怪 的 值 、 不 一 致 的 分 类 标签 和 奇怪 
的 分 布 ; 在 识别 错误 数据 后 ， 借 助 领域 专家 修正 错误 ， 或 删除 含 错误 值 的 
































记录 
数据 标准 化 采用 各 种 标准 化 或 计量 技术 将 各 数值 型 变量 的 取 值 范围 减少 到 一 个 标准 
范围 
数据 转换 离散 或 聚集 数据 必要 时 采用 基于 范围 或 频率 的 分 级 技术 ， 将 数值 型 变量 转换 成 离散 形式 ; 
通过 恰当 应 用 层次 概念 减少 分 类 变量 的 取 值 数 量 
构造 新 属性 | 广泛 应 用 数学 函数 (简单 的 如 加 法 和 乘法 ， 复 杂 的 如 对 数 变换 的 杂交 组 
合 ) ， 由 已 知 变量 推导 出 更 有 启发 性 的 新 变量 
减少 属性 数量 主 成 分 分 析 、 独 立成 分 分 析 、 卡 方 检验 、 相 关 分 析 和 决策 树 推导 
数据 简化 减少 记录 数量 | ”随机 取样 、 分 层 取样 、 基 于 专家 知识 的 有 目的 取样 
平衡 偏 斜 数据 对 代表 较 少 的 实例 超 取样 ， 或 者 对 代表 较 多 的 实例 少 取样 








4.3.4 步骤 4: Be 


这 一 步骤 将 从 各 种 建 模 技术 中 进行 选择 ， 并 将 其 应 用 到 已 经 准备 好 的 数据 集 ， 以 解决 具体 
商业 需求 。 建 模 过 程 还 包括 对 各 种 模型 的 评估 和 比较 分 析 。 由 于 并 不 存在 公认 “最 好 的 ”数据 
挖掘 方法 或 算法 ， 所 以 应 当 利 用 各 种 可 行 模型 ， 并 采用 清晰 定义 的 实验 和 评估 策略 识别 出 对 于 
给 定 目标 “最 好 的 ”方法 。 即 使 是 对 单个 方法 或 算法 ， 也 需要 进行 很 多 参数 调整 才能 获得 最 优 
的 结果 。 有 些 方法 可 能 对 数据 格式 有 特殊 要 求 ， 因 此 从 这 里 返回 数据 准备 阶段 也 是 经 常 有 必 
要 的 。 

依据 不 同 的 商业 需求 ， 数 据 挖掘 任务 可 以 分 成 3 种 类 型 : 预测 (分 类 或 回归 ) 、 关 联 或 聚 
Ko 在 执行 各 种 数据 挖掘 任务 时 ， 都 可 能 用 到 多 种 数据 挖掘 方法 和 算法 。 本 章 前 面 讲 述 了 其 中 一 
些 数 据 挖掘 方法 ， 还 有 一 些 广 为 应 用 的 算法 ,包括 分 类 决策 树 、k -均值 聚 类 和 用 于 挖 据 关联 规 
则 的 Apriori 算法 ， 都 将 在 本 章 后 续 部 分 讲 到 。 


4.3.5 步骤 5: 测试 和 评估 


第 5 步 是 对 所 建立 模型 的 精确 性 和 一 般 性 进行 评估 。 在 这 一 阶段 ， 确 定 所 选用 的 模型 是 否 能 满 
足 业 务 目标 。 如 果 认 为 模型 能 满足 目标 ， 那 么 还 要 评估 其 能 在 多 大 程度 上 满足 目标 ， 也 就 是 要 判断 
是 否 有 必要 建立 和 评估 更 多 的 模型 。 如 果 时 间 和 预算 允许 ， 还 可 以 考虑 在 真实 世界 背景 中 测试 模 
型 。 尽 管 根据 预期 所 建立 的 模型 结果 和 最 初 的 业务 目标 应 当 是 相关 的 ， 但 也 会 有 一 些 其 他 发 现 虽然 
不 一 定 和 最 初 目标 相关 ， 却 也 可 能 揭示 一 些 额外 信息 ， 或 者 对 未 来 的 研究 方向 有 所 启发 。 

测试 和 评估 阶段 的 任务 很 关键 也 很 有 挑战 性 。 除 非 能 够 识别 分 辨 由 所 发 现 的 知识 模式 所 带 来 的 
商业 价值 ， 否 则 数据 挖掘 工作 就 没有 增加 价值 。 确 定 知识 模式 的 商业 价值 有 些 类 似 于 玩 拼图 。 所 提 
取出 的 知识 模式 就 像 拼 图 中 的 板块 ， 需 要 按照 具体 业务 目的 将 其 组 装 在 一 起 。 辨 识 能 否 成 功 ， 有 赖 
于 数据 分 析 员 、 业 务 分 析 员 和 决策 者 (如 业务 经 理 ) 之 间 的 相互 作用 。 数 据 分 析 员 可 能 对 数据 挖掘 
的 目标 及 其 对 于 业务 的 意义 缺乏 整体 理解 ， 而 业务 分 析 员 和 决策 者 则 可 能 缺乏 解释 复杂 数学 方案 的 
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技术 知识 ， 因 此 三 者 之 间 的 交互 是 非常 必要 的 。 要 很 好 地 解释 知识 模式 ， 常 常 需 要 应 用 各 种 图 表 和 
可 视 化 技术 〈 例 如 数据 透视 表 、 结 果 交 叉 制 表 、 饼 状 图 、 直 方 图 、 方 块 图 、 散 点 图 ) 。 


4.3.6 步骤 6: 部 署 


建立 模型 并 评估 并 不 说 明 数 据 挖掘 项 目 已 经 结束 。 即 使 模型 的 目的 只 是 简单 了 解数 据 ， 也 
需要 对 研究 过 程 所 获取 的 知识 进行 组 织 ， 并 以 终端 用 户 能 够 理解 和 受益 的 方式 表达 这 些 知识 。 
根据 需求 不 同 ， 部 署 过 程 可 能 很 简单 ， 例 如 生成 报告 ; 也 可 能 很 复杂 ， 例 如 可 重复 的 跨 企业 数据 
挖掘 实施 过 程 。 在 很 多 情况 下 ， 部 署 步骤 是 由 客户 而 非 数据 分 析 员 进行 。 然 而 ， 即 使 分 析 员 并 不 
实现 部 署 工 作 ， 但 客户 也 需要 预先 理解 其 需要 执行 的 操作 ， 才 能 真正 利用 所 生成 的 模型 。 

部 署 阶段 还 可 能 包括 对 所 部 署 模型 的 维护 工作 。 由 于 业务 总 在 变化 ， 业 务 活动 数据 也 一 直 在 改变 。 
随 着 时 间 的 推移 ， 基 于 过 往 旧 数据 的 模型 及 其 内 置 模式 可 能 变 得 过 时 、 不 相干 或 者 引发 误解 。 因 此 ， 
如 果 要 把 数据 挖掘 结果 作为 日 常 业务 环境 中 的 一 部 分 ， 那 么 对 模型 的 监控 和 维护 就 非常 重要 。 认 真 预 
备 维护 策略 有 助 于 避免 不 必要 地 长 期 错误 使 用 数据 挖掘 结果 。 为 了 监控 数据 挖掘 结果 的 部 署 ， 项 目 需 
要 制定 详细 的 监控 过 程 计划 ， 对 于 复杂 的 数据 挖掘 模型 ， 这 可 能 是 一 项 艰巨 的 任务 。 





应 用 案例 4.5 BERR PHAR 


据 美国 癌症 协会 的 数据 ，2009 年 新 增 癌症 病例 大 约 达 到 150 万 例 。 癌 症 是 美国 乃至 
全 世界 的 第 2 大 常见 死因 ， 仅 次 于 心血 管 疾病 。2010 年 ， 预 计 美 国 将 有 562 340 ART 
癌症 ， 平 均 每 天 超过 1500 人 ， 几 乎 占 到 死亡 人 数 的 四 分 之 一 。 

癌症 是 一 组 疾病 ， 其 一 般 特征 表现 为 异常 细胞 不 可 控制 的 生长 和 扩散 。 如 果 癌 症 的 
生长 扩散 不 能 得 到 有 效 控制 ， 那 么 就 会 导致 死亡 。 尽 管 确切 病因 不 详 ， 但 一 般 认为 癌症 
是 由 外 部 因素 (例如 ， 吸烟、 器 官 感 染 、 化 学 物质 、 辐 射 ) 和 内 部 因素 (Fle, RHR 
变 、 激 素 、 免 疫 疾病 、 由 代谢 导致 的 突变 ) 共同 导致 的 。 这 些 影响 因素 可 能 同时 或 顺序 
作用 导致 癌症 引发 或 有 恶化 。 当 前 ， 癌 症 的 治疗 方法 有 手术 、 放 射线 治疗 、 化 疗 、 激 素 疗 
法 、 生 物 疗 法 、 目 标 疗法 。 癌 症 的 存活 率 随 不 同 的 种 类 和 诊断 期 而 有 很 大 差别 。 

癌症 总 体 的 5 年 相对 存活 率 已 经 从 1975 年 到 1977 49 50% ， 上 升 到 1996 年 到 2004 
年 的 66% 。 存 活 率 的 上 升 反映 了 癌症 早期 诊断 的 发 展 和 癌症 治疗 手段 的 进步 。 瘤 症 防 治 
还 需要 进一步 完善 加 强 。 

传统 的 癌症 研究 在 性 质 上 属于 临床 和 生物 领域 ,但 近 些 年 来 也 常常 采用 数据 驱动 的 
分 析 研 究 作为 补充 。 在 已 经 成 功 应 用 数据 和 分 析 驱 动 研究 的 医学 领域 ， 新 的 研究 方向 也 
已 经 产生 ， 用 以 促进 临床 和 生物 研究 的 进步 。 利 用 各 种 类 型 的 数据 ， 包 括 分 子 、 临 床 、 
文献 数据 、 临 床 实 验 数据 ， 同 时 应 用 合适 的 数据 挖掘 工具 和 技术 ， 研 究 者 已 经 能 够 识别 
出 新 模式 ， 从 而 为 战胜 癌症 成 为 无 癌 社 会 英 定 了 基础 。 

Delen 在 2009 年 的 一 项 研究 中 ,采用 三 种 常用 数据 挖掘 技术 (决策 树 、 人 工 神 经 网 
络 ANN、 支 持 向 量 机 ) ， 并 结合 逻辑 回归 方法 ， 建 立 了 前 列 腺 癌 存 活 率 预测 模型 。 数 据 
集 包 含 大 约 120 000 条 记录 和 77 个 变量 。 同 时 ,应 用 尺 折 交叉 确认 方法 进行 模型 的 建立 、 
评估 和 比较。 结果 表明 ， 该 领域 中 预测 最 为 精确 的 是 支持 向 量 模 型 (测试 集 精确 度 为 
92. 85% ) ， 其 次 是 人 工 神 经 网 络 和 决策 树 。 此 外 ， 应 用 敏感 度 分 析 评 估 方 法 的 研究 结果 
还 揭示 了 前 列 腺 癌 预 后 因素 的 相关 新 模式 。 
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2006 年 ，Delen 的 一 项 相关 研究 针对 一 个 包含 超过 200 000 例 病例 的 大 规模 数据 集 ， 
应 用 两 种 数据 挖掘 算法 (人 工 神经 网 络 和 决策 树 )， 结 合 逻 辑 回 归 方 法 建立 了 和 乳腺 癌 存 
活 状 况 的 预测 模型 。 研 究 采 用 一 种 10 折 交 又 确认 方法 进行 预测 模型 的 无 偏 估计 测量 ,， 进 
行 模型 性 能 比较 ， 结 果 认 为 决策 树 (C5 算法 ) 预测 最 为 精确 ， 测 试 组 样本 精确 度 达 到 
93. 6% ， 是 文献 报道 中 预测 精度 值 最 高 的 ; 其 次 是 人 工 神经 网 络 ， 精 确 度 为 91.2%; 最 
后 是 逻辑 回归 ， 精 确 度 为 89. 2% 。 对 预测 模型 的 进一步 分 析 表 明 预 后 因素 相当 重要 ， 可 
以 作为 进一步 临床 和 生物 研究 的 基础 。 

这 些 实例 (以 及 医学 文献 中 的 很 多 其 他 实例 ) 说 明 ， 先 进 的 数据 挖掘 技术 能 够 用 于 
建立 具有 高 度 预测 和 解释 能 力 的 模型 。 虽 然 数据 挖 据 方 法 能 够 挖掘 出 深度 隐藏 在 大 型 复 
杂 医 疗 数据 库 中 的 模式 和 关系 ， 但 如 果 没 有 医学 专家 的 合作 和 反馈 ， 这 些 结果 是 没有 多 
大 用 处 的 。 通 过 数据 挖掘 方法 发 现 的 模式 应 当 由 具备 数 年 相关 问题 领域 经 验 的 医学 专家 
进行 评估 ， 以 确定 其 是 否 合乎 有 逻辑 ， 是 否 可 行 ， 以 及 是 否 新 颖 而 可 作为 新 的 研究 方向 依 
据 。 简 而 言 之 ， 数 据 挖 气 不 是 要 取代 医学 专家 和 研究 人 员 ， 而 是 要 让 数据 驱动 的 新 研究 
方向 与 他 们 的 重要 工作 相辅相成 ， 最 终 拯救 更 多 的 人 类 生命 。 

来 源 : D. Delen,“ Analysis of Cancer Data: A Data Mining Approach,” Expert Systems , Vol. 26 ,No. 1 ,2009 , pp. 100-112; 

J. Thongkam,G. Xu, Y. Zhang, and F. Huang, “ Toward Breast Cancer Survivability Prediction Models Through Im- 
proving Training Space ,” Expert Systems with Applications ,2009 ,in press; D. Delen,G. Walker, and A. Kadam, “ Pre- 
dicting Breast Cancer Survivability; A Comparison of Three Data Mining Methods ,” Artificial Intelligence in Medicine , 
Vol. 34, No. 2 ,2005 ,pp. 113-127. 





4.3.7 ”其 他 标准 化 数据 挖掘 过 程 和 方法 


一 项 成 功 应 用 的 数据 挖掘 研究 必须 遵循 标准 方法 ， 而 不 是 将 一 组 自动 化 软件 工具 技术 无 序 组 


合 。 除 了 CRISP-DM 以 外 ， 由 美国 SAS 软件 研究 所 于 2009 年 开发 的 SEMMA 也 是 一 种 广为人知 的 方 
法 。 缩 略 字 SEMMA 代表 “抽样 (Sample), RR (Explore) 、 修 正 (Modify)、 建 模 (Model) 和 分 
析 (Assess)”。 


SEMMA 从 数据 的 统计 代表 取样 开始 ， 可 以 很 容易 地 应 用 统计 探测 和 可 视 化 技术 ， 选 取 转 换 


最 重要 的 预测 变量 ， 建 立 变 量 预 测 结果 模型 ， 并 加 强 模型 的 精确 度 。 图 4-7 给 出 了 SEMMA 的 图 
形 表示 。 





抽样 
(产生 数据 代表 样本 ) 
分 析 探索 
(估计 模型 可 用 性 和 精确 度 ) (数据 基本 描述 和 可 视 化 ) 






















| 
ti 


修正 
(选取 变量 和 变量 格式 转换 ) 


图 4-7 SEMMA 数据 挖掘 过 程 





(应 用 各 种 统计 和 机 器 学 习 模型 ) 
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通过 对 SEMMA 过 程 中 的 每 一 阶段 进行 结果 评估 ， 建 模 人 员 能 够 针对 前 面 结 果 所 提出 的 新 间 
题 ， 决定 如 何 建立 模型 ， 并 接着 返回 调研 阶段 进一步 优化 数据 。 也 就 是 说 ，SEMMA 和 CRISP- 
DM 同样 是 由 高 度 迭 代 的 实验 循环 驱动 的 。CRISP-DM 和 SEMMA 之 间 的 主要 区 别 在 于 ，CRISP- 
DM 采用 的 方法 更 为 全 面 ， 包 括 对 数据 挖掘 项 目 相关 业务 和 数据 的 理解 。 而 SEMMA 则 隐 含 假设 
数据 挖掘 项 目的 目标 及 其 恰当 数据 源 已 经 被 识别 和 理解 。 

业界 也 通常 使 用 术语 数据 库 中 的 知识 发 现 (Knowledge Discovery in Databases, KDD) 指 代 数据 
挖掘 。Fayyad 等 在 1996 年 将 数据 库 中 的 知识 发 现 定义 为 应 用 数据 挖掘 方法 从 数据 中 发 现 有 用 信息 
和 模式 的 过 程 。 与 数据 挖掘 形成 对 照 的 是 ，KDD 应 用 算法 从 KDD 过 程 获 得 数据 中 的 识别 模式 。 
KDD 是 一 个 涵盖 数据 挖掘 的 综合 过 程 。KDD 过 程 的 输入 包括 组 织 数 据 。 企 业 数 据 仓库 可 以 提供 一 
个 单一 的 挖掘 数据 源 ， 因 而 能 够 促进 KDD 的 实施 效率 。Dunham 在 2003 年 将 KDD 过 程 概括 为 如 下 
步骤 : 数据 筛选、 数据 预 处 理 、 数 据 转换 、 数 据 挖掘 和 解释 /评估 。Kdnuggets. com 网 站 于 2007 年 
8 月 就 问题 “你 主要 使 用 什么 数据 挖掘 方法 ?” 进 行 了 一 项 调查 ， 图 4-8 显示 了 投票 结果 。 















我 所 在 组 织 的 方法 | 





不 使 用 任何 方法 | 
特定 领域 方法 | 


其 他 方法 〈 非 特定 领域 ) | 


0 10 20 30 40 50 60 70 




















图 4-8 数据 挖掘 方法 /过 程 排 名 
来 源 : kdnuggets. com. 经 许可 使 用 . 


4. 3 节 复 习题 


1. 有 哪些 主要 的 数据 挖掘 过 程 ? 

2. 为 什么 数据 挖掘 项 目 中 的 早期 阶段 〈 例 如 业务 和 数据 理解 阶段 ) 会 占据 最 多 的 时 间 ? 
3. 列举 并 简单 定义 CRISP-DM 过 程 中 的 各 阶段 。 

4. 数据 预 处 理 主要 包括 哪些 步 又 ? 简单 描述 各 步骤 并 举 出 相关 例子 。 

5. CRISP-DM 和 SEMMA 有 哪些 不 同 ? 


4.4 数据 挖掘 方法 


进行 数据 挖掘 研究 的 方法 有 很 多 种 ， 包 括 分 类 、 回 归 、 聚 类 和 关联 。 大 多 数 数据 控 掘 软件 工 
具 对 每 一 种 方法 都 使 用 多 种 技术 或 算法 。 本 节 描 述 了 使 用 最 为 广泛 的 数据 挖掘 方法 ， 并 对 其 代 
表 技 术 进 行 了 解释 。 


4.4.1 分 类 
分 类 可 能 是 解决 现实 世界 问题 时 使 用 最 为 频繁 的 数据 挖掘 技术 。 作 为 机 器 学 习 技 术 家 族 中 
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最 流行 的 成 员 ， 分 类 从 历史 数据 (预先 标记 项 目 、 对 象 或 事件 的 特征 信息 集合 一 一 特性 、 变 量 、 
特征 ) 中 学 习 模 式 从 而 将 新 的 实例 放 到 其 各 自 的 分 组 或 分 类 中 。 例 如 ， 可 以 用 分 类 预测 某 天 的 
天 气 是 “ 睛 ”、“ 雨 ”或 者 “多 云 "。 常 见 的 分 类 任务 包括 信贷 审批 〈 即 信用 风险 高 或 低 ) 、 商 店 
选 址 (例如 ， 好、 中 等 、 差 )、 目 标 营 销 ( 例 如， 可 能 成 为 客户 、 不 可 能 成 为 客户 )、 欺 诈 检测 
( 即 是 、 否 ) 和 电信 (例如 ， 是 否 可 能 转 到 其 他 电话 公司 )。 如 果 所 预测 的 是 一 个 类 别 标签 ( 例 
如 ,“ 晴 ”、“ 雨 ”或 者 “多 云 ”) ， 则 该 预测 问题 称 为 分 类 ; 而 如 果 所 预测 的 是 一 个 数量 值 〈 例 
WN, “Ui 68°F ) ， 则 该 预测 问题 称 为 回归 。 

尽管 聚 类 〈 另 一 种 常用 数据 挖掘 方法 ) 也 可 用 于 确定 事物 的 分 组 〈 或 者 类 别 属 性 ) ， 但 两 者 
之 间 仍 然 存在 显著 区 别 。 分 类 通过 一 个 监督 学 习 过 程 学 习 事物 之 间 的 功能 特征 〈 即 自 变 量 ) 及 
其 类 别 属性 〈 即 输出 变量 ) 。 其 中 ， 输 入 变量 和 输出 变量 都 被 提交 给 分 类 算法 ; 在 聚 类 中 ， 通 过 
一 个 无 监督 学 习 过 程 学 习 对 象 的 分 类 ， 提 交 给 聚 类 算法 的 只 有 输入 变量 。 和 分 类 不 同 ， 聚 类 不 存 
在 一 个 监督 (或 控制 ) 机 制 来 执行 学 习 过 程 。 作 为 蔡 代 ， 聚 类 算法 使 用 一 个 或 多 个 启发 式 〈 例 
如 多 维 距 离 测度 ) 来 发 现 对 象 的 自然 分 组 。 

最 通用 的 分 类 预测 两 步 法 包括 模型 建立 /训练 和 模型 测试 /部 署 。 模 型 建立 阶段 使 用 包括 实 
际 分 类 标签 在 内 的 一 组 输入 数据 。 在 模型 经 过 训练 以 后 ， 针 对 测试 组 样本 进行 模型 的 精确 度 评 
估 测 试 ， 最 终 进行 实际 应 用 部 署 ， 使 用 模型 对 新 的 数据 实例 (类 别 标签 未 知 ) 进行 类 别 预测 。 
模型 评估 要 考虑 的 因素 如 下 : 

。 预测 精度 ”模型 对 新 的 或 者 前 所 未 见 的 数据 类 别 标签 进行 正确 预测 的 能 力 。 预 测 精度 是 
最 通用 的 分 类 模型 评估 因素 。 在 计算 该 指标 时 ， 将 测试 数据 集 的 实际 类 别 标签 和 由 模型 
预测 的 类 别 标签 进行 匹配 。 然 后 ， 根 据 模 型 在 数据 集 样 本 上 的 正确 分 类 比率 就 可 以 计算 
出 正确 率 ， 作 为 精确 度 的 值 。 本 章 后 面部 分 还 将 给 出 更 多 的 相关 材料 。 
速度 ”模型 生成 和 应 用 的 计算 成 本 ， 越 快 越 好 。 
鲁 棒 性 ”在 给 定数 据 存在 噪声 或 缺失 错误 值 时 ， 模 型 进行 合理 精确 预测 的 能 力 。 
延展 性 ”给 定 相当 大 量 的 数据 时 ， 高 效 构建 预测 模型 的 能 力 。 
可 解读 性 ”模型 的 理解 洞察 水 平 〈 例 如 ， 模 型 对 某 个 预测 给 出 怎样 的 结论 ) 。 


4.4.2 分 类 模型 正确 性 估算 


分 类 模型 正确 性 估算 的 主要 来 源 是 混淆 矩阵 或 者 称 分 类 矩阵、 列 联 表 。 图 4-9 显示 了 一 个 二 
分 分 类 问题 的 混淆 矩阵 。 从 左上 角 到 右 下 角 的 对 角 线 数目 表示 正确 的 决策 ， 而 对 角 线 以 外 的 数 
目 表 示 错 误 。 








实际 类 别 





正 例 





预测 类 别 





负 例 























图 4-9 二 分 分 类 结果 表格 的 混淆 矩阵 示例 
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表 4-5 给 出 了 常见 的 分 类 模型 正确 性 指标 公式 。 
表 4-5 常见 的 分 类 模型 正确 性 指标 




















指 标 描述 
正确 的 正 例 类 别 比例 = PCA 正 例 总 数 除 正 确 分 类 的 正 例 数 目的 比例 〈 即 命中 率 或 取消 率 ) 
正确 的 负 例 类 别 比例 = Fp 负 例 总 数 除 正确 分 类 的 负 例 数目 的 比例 〈 即 错误 警报 率 ) 
TP + TN ds : 
EMH = py TN 4 FP 4 FN | 实例 总 数 除 正 确 分 类 的 实例 数目 〈 正 例 和 负 例 ) 的 比例 
TP 正确 分 类 的 正 例 数目 加 上 不 正确 分 类 的 正 例 数目 之 和 ， 除 正确 分 类 的 








精度 =7p FP 正 例 数目 的 比例 
le. 正确 分 类 的 正 例 数目 加 上 不 正确 分 类 的 负 例 数目 之 和 ， 除 正确 分 类 的 
~ TP + FN 正 例 数目 的 比例 


对 于 非 二 元 分 类 问题 ， 混 淆 矩阵 更 大 〈 和 矩阵 的 大 小 由 分 类 标签 的 唯一 编号 确定 ) ， 正 确 性 指 
标 仅 限于 分 类 准确 率 和 总 体 分 类 准确 率 。 


(RRA HR), = ERPA) 
六 (错误 分 类 )， 
Š (错误 分 类 )， 

总 7 a pei nt 

(eRe A Mes = EaR 


对 监督 学 习 算法 推导 的 分 类 模型 进行 正确 性 估算 是 非常 重要 的 。 原 因 有 如 下 两 点 : 首先 ， 可 
以 用 于 估计 未 来 预测 的 正确 性 ， 这 意味 着 对 预测 系统 输出 预测 结果 的 信心 水 平 ， 其次， 可 以 用 于 
从 给 定 集合 中 选择 分 类 器 〈 从 很 多 经 训练 的 分 类 模型 中 识别 出 最 好 的 ) 。 以 下 是 一 些 使 用 最 广泛 
的 分 类 数据 挖掘 模型 估计 方法 。 

简单 拆 分 简单 拆 分 (或 者 测试 样本 估计 ) 将 数据 分 割 成 2 个 互 斥 的 子 集 ， 分 别称 为 训练 
集 和 测试 集 ( 或 对 照 集 ) 。 通 常 的 做 法 是 选 定数 据 中 的 2/3 作为 训练 集 ， 剩 下 的 1/3 作为 测试 集 。 
建 模 者 使 用 训练 集 ， 然 后 在 测试 集 上 对 所 建立 的 分 类 器 进行 测试 。 当 使 用 人 工 神经 网 络 作为 分 
类 器 时 ， 情 况 有 所 不 同 。 此 时 ， 数 据 被 分 割 成 3 个 互 斥 子 集 : 训练 集 、 验 证 集 和 测试 集 。 在 建 模 
中 ， 验 证 集 被 用 于 防止 过 度 拟 合 。( 有关 人 工 神经 网 络 的 更 多 信息 参见 第 6 章 ) 。 图 4-10 说 明了 
简单 拆 分 方法 。 

















图 4-10 简单 随机 数据 拆 分 
对 该 方法 的 主要 批评 是 其 假设 2 个 数据 子 集中 的 数据 属于 同一 类 别 ( 即 具 有 完全 相同 的 属 
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性 ) 。 由 于 分 割 是 一 个 简单 的 随机 过 程 ， 所 以 对 于 数据 可 能 对 分 类 变量 有 偏 斜 的 大 多 数 实际 数据 
集 ， 这 一 假设 很 难 满 足 。 为 了 改善 这 种 状况 ， 提 出 了 分 层 取样 ， 将 样本 分 层 作为 输出 变量 。 尽 管 
这 对 简单 拆 分 有 所 改进 ， 但 仍然 存在 由 于 简单 随机 分 割 而 带 来 的 偏差 。 

k 折 交叉 确认 ”在 比较 两 种 或 多 种 方法 的 预测 精度 时 ， 为 了 最 大 限度 地 减少 与 训练 集 和 测试 
集 随机 取样 相关 的 偏差 ， 可 以 使 用 k 折 交叉 确认 方法 。k 折 交 叉 确 认 ， 也 称 为 轮回 估 测 ， 将 整个 
数据 集 随机 分 成 个 大 小 近似 相等 的 互 斥 子 集 。 分 类 模型 经 过 次 训练 和 测试 。 每 次 使 用 除了 一 
个 以 外 的 所 有 其 他 折 数 据 进 行 训练 ， 然 后 在 剩 下 的 一 折 数 据 上 进行 测试 。 模 型 的 有 折 交 又 确认 总 
体 正确 性 可 以 由 天 个 正确 性 指标 进行 简单 平均 计算 得 到 ， 参 见 以 下 公式 所 示 : 

cva = +54, 


Ht, CVA 代表 交叉 检验 正确 性 , 大 为 采用 的 折 数 ，4 为 每 折 的 正确 性 指标 (例如 ,命中 率 、 敏 
” 感度、 特异 性 )。 

其 他 分 类 评估 方法 ”其 他 常见 的 评估 方法 包括 如 下 几 种 : 

e 留 一 法 ” 留 一 法 和 名 值 为 1 的 k 折 交叉 确认 类 似 。 也 就 是 说 ， 模 型 数量 和 数据 点 数量 是 
相等 的 ， 每 个 数据 点 在 模型 上 测试 一 次 。 这 种 方法 很 耗 时 ， 但 对 于 较 小 的 数据 集 来 说 ， 
有 时 也 是 一 个 可 行 的 选择 。 

。 拔 靳 复制 法 ”从 初始 数据 中 提取 固定 数目 的 实例 作为 训练 样本 ， 数 据 集 剩 下 部 分 用 于 测试 。 
根据 需要 ， 将 此 过 程 重复 多 次 。 

e 折 刀 法 与 留 一 法 类 似 。 在 折 思 
法 计算 精度 时 ， 估 算 过 程 的 每 一 
次 迭代 都 省 略 一 个 样本 。 

e ROC 曲线 下 面积 ”ROC 曲线 下 
面积 是 一 种 图 形 评 估 技 术 ， 在 了 
轴 上 绘制 真 阳 性 率 ， 在 X 轴 上 绘 
制 假 阳 性 率 。ROC 曲线 以 下 的 面 
积 确定 了 一 个 分 类 器 的 精度 : 1 
表示 精度 极 好 ; 而 0.5 表明 精度 
等 于 随机 概率 。 实 际 的 精度 值 范 
围 在 两 个 极端 值 之 间 。 例 如 ， 在 
图 4-11 中 ，A 的 分 类 表现 好 于 也， 
而 C 则 并 不 比 投 硬 币 的 随机 概率 0 ee ee a ae OO 
结果 更 好 。 0 01 02 03 04 05 06 07 08 09 1 

分 类 技术 ”以 下 是 一 些 用 于 分 类 建 

模 的 技术 或 算法 : 

。 决策 树 分 析 ”决策 树 分 析 〈 一 种 机 器 学 习 技 术 ) 毫 无 疑问 是 数据 挖掘 领域 使 用 最 广泛 的 
分 类 技术 。 下 一 节 给 出 了 这 种 技术 的 详细 描述 。 

。 统计 分 析 ”在 机 器 学 习 技术 出 现 以 前 的 很 多 年 ， 统 计 技术 是 最 主要 的 分 类 算法 。 统 计 分 
类 技术 包括 逻辑 回归 和 判别 分 析 ， 两 者 都 假设 输入 和 输出 变量 之 间 是 线性 关系 ， 数 据 趋 
于 正 态 分 布 ， 且 变量 之 间 不 存在 关联 ， 彼 此 独立 。 这 些 假 设 存在 的 疑点 使 得 机 器 学 习 技 
术 成 为 趋势 。 

。 神经 网 络 ”是 用 于 解决 分 类 问题 时 最 常用 的 机 器 学 习 技术 。 本 章 后 面 将 对 该 技术 进行 详 
细 描 述 。 





真 阳性 率 〈 敏 感度 ) 





假 阳性 比率 〈1- 特 异性 ) 

















图 4-11 一 个 ROC 曲线 样本 
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。 基于 实例 的 推理 ”该 方法 应 用 历史 实例 数据 ， 识 别 出 其 共同 点 ， 从 而 将 新 实例 指 庆 到 最 
可 能 的 类 别 范 畴 。 

© 贝 叶 斯 分 类 器 ”该 方法 基于 事件 的 过 去 发 生 情 况 ， 应 用 概率 论 建立 分 类 模型 ， 能 够 将 新 
的 实例 指派 到 最 可 能 的 类 别 范畴 。 

。 遗传 算法 ”模仿 自然 演化 过 程 ， 基 于 定向 搜索 机 制 建立 数据 样本 分 类 机 制 。 

。 粗糙 集 ”该 方法 考虑 预定 义 范畴 中 的 部 分 类 别 标签 ， 建 立 分 类 问题 规则 集 模型 。 

对 所 有 分 类 技术 的 完整 描述 超出 了 本 书 范围 ， 因 此 这 里 仅 介 绍 使 用 最 广泛 的 几 种 分 类 方法 。 

决策 树 ”在 描述 决策 树 的 细节 以 前 ， 我 们 需要 先 讨论 一 些 简单 术语 。 首 先 ， 决 策 树 包 括 很 多 
可 能 影响 不 同 模式 分 类 的 输入 变量 ， 通 常 称 为 属性 。 例 如 ， 建 立 贷款 风险 模型 要 基于 两 个 特 
征 一 一 收入 和 信用 等 级 ， 这 两 个 特征 就 是 属性 ， 而 输出 结果 则 为 分 类 标签 (例如 ， 低 风险 、 中 
等 风险 、 高 风险 ) 。 其 次 ， 一 棵 树 包 括 分 支 和 结 点 。 分 支 表示 利用 属性 得 到 的 一 个 模式 分 类 测试 
结果 。 树 末端 的 叶子 结 点 表示 一 个 模式 (从 根 结 点 到 叶子 结 点 的 链条 ， 可 以 用 一 个 复杂 的 条 件 
语句 来 表达 ) 的 最 终 类 别 选择 。 

决策 树 的 基本 思想 在 于 其 对 训练 集 进行 递归 划分 ， 直 至 每 一 部 分 样本 全 部 或 绝 大 部 分 都 属 
于 同一 类 别 为 止 。 决 策 树 的 每 一 非 叶子 结 点 都 包含 一 个 分 割 点 ， 通 过 测试 一 个 或 多 个 属性 来 确 
定 如 何 进一步 划分 数据 。 一 般 而 言 ， 决 策 树 算法 最 初 建立 树 的 叶子 结 点 都 是 单一 的 ， 需 要 进行 前 
枝 以 增加 其 泛 化 程度 ， 从 而 提高 测试 数据 的 预测 正确 性 。 

在 决策 树 的 生成 阶段 ， 通 过 递归 分 割 数据 直到 每 一 部 分 都 是 单一 的 ( 即 包含 成 员 都 属于 相 
同类 别 ) 或 相对 较 小 的 。 基 本 思想 就 是 提问 “哪个 答案 能 够 提供 最 多 的 信息 ”， 类 似 于 我 们 玩 

“ 猜 猜 二 十 问 ” 的 游戏 。 

用 于 分 割 数据 的 分 割 点 依赖 于 分 割 中 采用 的 属性 类 型 。 对 于 一 个 连续 属性 A， AMERY 
A 的 值 。 

1. 创建 一 个 根 结 点 ， 并 将 所 有 训练 数据 分 配给 根 结 点 。 

2. 选择 最 佳 的 分 割 属性 。 

3. 为 分 割 点 的 每 个 值 在 根 结 点 上 增加 一 个 分 支 。 沿 着 分 支 的 特定 分 割 点 和 模式 路 线 ， 将 数 
据 分 割 成 为 彼此 不 相 容 (ABE) WFR. 

4. 对 各 叶子 结 点 ， 重 复 步骤 2 和 3， 直 到 满足 停止 条 件 ( 例 如， 结 点 仅 代表 一 个 单独 的 类 别 
标签 ) 。 

已 经 相继 提出 了 很 多 不 同 的 决策 树 创建 算法 。 这 些 算法 的 主要 区 别 在 于 其 确定 分 割 属性 
(和 分 割 值 ) 的 方式 、 分 割 属性 的 顺序 (对 相同 属性 仅 分 割 一 次 还 是 多 次 ) 、 各 结 点 的 分 支 数 目 
(二 分 还 是 三 分 ) 、 递 归 停 止 条件 和 剪 枝 方式 〈 先 剪 枝 还 是 后 剪 枝 ) 。 最 广为人知 的 算法 包括 来 源 
于 机 器 学 习 的 ID3 (其 后 又 出 现 了 ID3 的 改进 版 本 : C4.5 和 C5)、 来 源 于 统计 学 的 分 类 和 回归 树 
(Classification and Regressiou Tree, CART) 和 来 源 于 模式 识别 的 卡 方 自动 交互 检测 (Chi-squared 
Automatic Interaction Detector, CHAID) 。 

在 建立 决策 树 时 ， 每 一 结 点 的 目标 定位 在 确定 属性 及 其 分 割 点 ， 以 使 能 够 将 训练 记录 
进行 最 佳 划分 ， 从 而 使 得 结 点 代表 的 类 型 是 单一 的 。 已 经 提出 了 一 些 分 割 指数 来 评估 分 割 
是 否 恰当 ， 其 中 最 为 通用 的 是 基尼 系数 和 信息 增益 。 基 尼 系 数 用 于 CART 和 SPRINT (可 扩 
展 的 PaRalleizable 决策 树 推导 ) 算法 。 不 同 版 本 的 信息 增益 则 被 用 于 ID3 (及 其 更 新 版 本 : 
C4.5 和 C5)。 

基尼 系数 ”在 经 济 学 中 用 于 度量 人 类 族群 的 多 样 性 。 同 样 的 概念 可 以 用 于 确定 某 一 特定 类 
别 的 纯度 ， 该 类 别 是 确定 一 个 特定 属性 或 变量 的 分 支 结果 。 最 佳 的 分 割 点 能 够 增加 分 割 集合 的 
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纯度 。Hastie et al. (2009) 对 基尼 系数 及 其 数学 表达 进行 了 更 详细 的 描述 。 


信息 增益 ”是 ID3 (可 能 是 最 广为人知 的 决策 树 算法 ) 采用 的 分 割 机 制 。ID3 算法 由 Ross 


Quinlan 于 1986 年 提出 ， 随 后 他 又 将 该 算法 发 展 成 为 C4.5 和 C5 算法 。ID3 及 其 变种 的 基本 思想 


是 使 用 粹 的 概念 代替 基尼 系数 。 蚁 度量 某 一 数据 集 的 不 确定 或 随机 程度 。 若 一 个 子 集 中 的 所 有 


数据 都 属于 同一 种 类 ， 那 么 该 数据 集中 不 存在 不 确定 性 或 随机 性 ， 其 焙 为 0。 该 方法 的 目标 在 于 


ELTH, HGRAGANATRMA 0 (RRO). Quinlan (1986) 对 信息 增益 及 其 数学 表 
达 进 行 了 更 详细 的 描述 。 








应 用 案例 4.6 Highmark 公司 应 用 数据 挖掘 管理 保险 成 本 


长 期 以 来 ， 位 于 宾夕法尼亚 匹 效 堡 的 Highmark 公司 为 其 成 员 群 体 提供 廉价 的 优质 卫 
生 保 健 。Highmark 于 1996 年 由 两 个 宾夕法尼亚 州 蓝 十 字 与 蓝 盾 协会 的 持 牌 者 : BIKE 
亚 蓝 盾 〈 现 在 的 Highmark HA) 和 宾 州 西部 的 蓝 十 字 计 划 (现在 的 Highmark 蓝 十 字 蓝 
盾 ) 合并 而 成 。 目 前 Highmark 是 美国 最 大 的 健康 保险 公司 之 一 。 

管理 保健 组 织 中 的 数据 

流动 于 Highmark 等 管理 保健 组 织 中 的 数据 量 非常 巨大 。 这 些 过 去 常 被 视 为 耗费 存储 
空间 、 很 难处 理 的 数据 ， 在 最 近 被 认为 是 新 知识 的 来 源 。 数 据 挖掘 工具 和 技术 为 病历 数 
据 分 析 提 供 了 实用 手段 ， 也 解 开 了 以 更 低 的 成 本 实现 更 好 地 管理 保健 医疗 这 一 难题 ， 这 
是 诸多 管理 保健 医疗 公司 努力 实现 的 使 命 。 

管理 保健 公司 每 天 都 要 收 到 数 以 百 万 计 的 客户 数据 字段 ， 每 条 信息 都 会 更 新 病案 历 
史记 录 。 公 司 已 经 认识 到 这 些 数据 处 理 后 的 用 处 ， 并 开始 使 用 分 析 软 件 工具 找 出 成 本 相 
对 平均 水 平 更 为 昂贵 的 病人 群体 。 早 先 应 用 计算 机 技术 提取 病人 相关 信息 的 工作 局 限于 
在 两 种 不 同 疾病 间 建 立 联系 。 例如， 软件 工具 可 以 扫描 数据 ， 给 出 糖尿 病 或 冠 心病 患者 
治疗 费用 最 为 昂贵 的 报告 。 但 是 ， 要 发 现 病 患 的 病因 ， 或 者 分 析 为 什么 一 些 病人 相对 更 
容易 受到 某 些 疾病 的 负面 影响 ， 这 些 基于 报告 的 软件 工具 则 无 能 为 力 。 通 过 多 维 信 息 分 
析 ， 简 要 总 结 不 同 疾病 和 病人 概况 之 间 的 关系 和 关联 ， 数 据 挖掘 工具 能 够 解决 一 些 这 样 
的 问题 。 

管理 保健 组 织 被 大 量 数据 淹没 ， 为 了 避免 增加 复杂 性 ， 其 中 一 些 企 业 不 愿意 添加 数 
据 挖 握 应 用 。 他 们 可 能 出 于 各 种 目的 希望 扫描 数据 ， 但 没有 能 力 决定 为 什么 或 者 怎样 分 
析 其 数据 。 不 过 ， 健 康 保险 组 织 正 在 为 提高 数据 效率 和 数据 组 织 打 清道 路 ， 因 此 情况 对 
病人 和 企业 都 愈加 光明 。 

对 数据 挖掘 的 需求 

市 场 压 力 迫 使 管理 保健 组 织 越 来 越 高 效 ， 因 而 要 认真 对 待 数据 挖掘 。 客 户 要 求 更 多 
更 好 的 服务 ， 竞 争 愈加 残酷 ， 这 些 都 要 求 以 合适 的 方式 设计 和 传递 定制 化 产品 。 

客户 化 促使 我 们 回 到 大 部 分 医疗 费用 发 生 的 原因 和 位 置 源 点 。 很 多 组 织 开 始 应 用 
数据 挖 握 软 件 来 预测 哪些 人 更 易于 生病 ,哪些 人 的 治疗 费用 可 能 最 为 昂贵 。 对 未 来 的 
关注 使 得 组 织 能 够 找 出 花费 最 昂贵 的 病人 ， 并 通过 采取 预防 措施 降低 医疗 费用 。 预 测 
研究 的 另 一 重要 应 用 是 管理 保费 。 雇 员 较 多 的 雇主 群体 成 本 更 高 ， 因 而 其 费 率 也 会 


| 增加 。 
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基于 历史 数据 ， 预 测 模型 能 够 预告 哪些 病人 更 可 能 成 为 企业 负担 。 例如， 一 个 预测 
建 模 程序 可 能 认为 一 位 糖尿 病人 存在 较 高 的 医疗 费用 增高 风险 ， 这 条 信息 本 身 可 能 并 不 
构成 有 价值 的 线索 。 但 是 ，Highmark 的 数据 挖掘 工具 在 糖尿 病人 和 其 他 病人 参数 以 及 环 
境 相 关 和 参数 之 间 建 立 了 联系 。 即 ， 具 有 特定 心脏 不 适 状 况 的 病人 可 能 具有 更 高 的 风险 收 
患 糖尿 病 。 建 立 这 种 联系 是 因为 服用 强 心 剂 可 能 导致 病人 在 以 后 患 糖尿 病 。Highmark E 
式 证 实 了 该 事实 。 他 们 声称 ， 他 们 本 来 可 能 不 会 监测 使 用 强 心 剂 的 病人 ， 也 不 会 在 强 心 
剂 和 糖尿 病 之 间 建 立 联 系 。 医 学 研究 成 功 地 对 病人 复杂 状况 进行 了 系统 编码 。 数 据 挖 握 
为 更 好 地 检测 和 恰当 地 干预 计划 商定 了 基础 。 
来 源 : Based on G. Gillespie, “Data Mining: Solving Care, Cost Capers,” Health Data Management , November 2004,findarti- 
cles. com/ p/articles/ mi_km2925/is_200411/ai_n8622737 (accessed May 2009); and “Highmark Enhances Patient 
Care, Keeps Medical Costs Down with SAS,” sas. com/success/highmark. html (accessed April 2006) . 














4.4.3 SHARAD 


聚 类 分 析 是 一 种 重要 的 数据 挖掘 方法 ， 它 将 物品 、 事 件 或 者 概念 分 成 称 为 聚 类 的 公共 组 。 该 
方法 广泛 应 用 于 生物 、 医 药 、 遗 传 、 社 交 网 络 分 析 、 人 类 学 、 考 古 学 、 航 天 、 字 符 识别 ， 甚 至 管 
理 信息 系统 开发 中 。 随 着 数据 挖掘 越 来 越 流行 ， 相 关 技术 已 被 用 于 商业 ， 特 别 是 营销 中 。 聚 类 分 
析 已 被 广泛 应 用 于 检测 欺诈 (包括 信用 卡 和 电子 商务 诈骗 ) 和 现代 CRM 系统 的 客户 市 场 分 类 。 
随 着 人 们 对 聚 类 分 析 的 认识 和 应 用 ， 更 多 的 商业 应 用 在 继续 发 展 。 

聚 类 分 析 是 一 种 用 于 解决 分 类 问题 的 探索 数据 分 析 工 具 。 其 目标 是 将 实例 (例如 和 人、 事物 、 
事件 ) 分 成 组 或 群 ， 使 得 相同 群 中 的 成 员 关 联 程度 较 强 ， 而 不 同 群 中 的 成 员 彼此 关联 程度 较 弱 。 
每 个 群 描述 了 其 成 员 所 属 的 类 。 一 个 简单 的 一 维 聚 类 分 析 例 子 是 为 大 学 课堂 建立 分 数 范 围 ， 以 
根据 不 同 级 别 分 班 。 这 和 美国 财政 部 在 20 世纪 80 年 代 遇 到 的 建立 新 的 应 税 级 别 的 聚 类 分 析 问 题 
AEA. FE J. K. Rowling 的 《Harry Potter》 一 书 中 ， 有 一 个 虚构 的 聚 类 实例 。 分 院 帽 决定 替 格 
沃 茨 魔法 学 校 的 新 生 进 入 哪 一 个 分 院 〈 例 如 ， 宿 舍 ) 。 还 有 一 个 例子 就 是 确定 婚礼 客人 如 何 排 座 
位 。 就 数据 挖掘 而 言 ， 聚 类 分 析 的 重要 性 在 于 其 可 以 发 现 数据 中 的 关联 和 结构 ， 这 些 关联 和 结构 
虽然 本 来 并 不 明显 却 合乎 情理 ,一 旦 被 发 现 就 很 有 用 。 

聚 类 分 析 结 果 可 用 于 : 

。 识别 分 类 计划 〈 例 如 客户 类 型 ) 
提出 人 口 种 族 描述 统计 模型 
给 出 新 实例 的 分 类 规则 ， 以 实现 识别 、 定 位 或 诊断 目标 
提供 定义 和 估算 措施 、 大 小 ， 替 换 原本 宽泛 的 概念 
发 现 标记 和 表达 类 别 的 典型 例子 
为 其 他 数据 挖掘 方法 降低 问题 空间 的 大 小 和 复杂 度 
识别 特定 领域 (例如 偶发 事件 检测 ) 的 离 群 值 。 

确定 聚 类 的 最 佳 数目 ” 聚 类 算法 通常 需要 指定 所 要 寻找 的 聚 类 数目 。 若 该 数目 是 先前 未 知 
的 ， 就 需要 以 某 种 方式 来 确定 。 可 是 ， 并 不 存在 一 种 最 佳 方法 计算 该 值 。 因 此 ， 已 经 提出 多 种 不 
同 的 启发 式 方法 。 其 中 应 用 最 广泛 的 有 如 下 几 种 : 

。 将 变量 的 比率 看 做 是 聚 类 数目 的 函数 。 也 就 是 说 ， 选 择 一 个 值 作为 聚 类 的 数目 ， 使 得 增 

加 聚 类 不 会 给 数据 建 模 带 来 多 大 好 处 。 明 确 地 说 ， 若 对 由 聚 类 解释 的 变量 比率 绘图 ， 那 
么 存在 一 个 点 使 得 边际 收益 下 降 (图 中 将 出 现 一 个 角 ) ， 即 为 所 选择 的 聚 类 数目 。 
。 令 夷 类 的 数目 为 (n/2)”， 其 中 是 数据 点 的 数目 。 
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。 应 用 赤 池 信息 准则 〈 一 种 基于 焙 概 念 的 拟 合 优 度 测 度 ) 确定 聚 类 的 数目 。 

e 应 用 贝 叶 斯 信息 准则 (一 种 基于 最 大 似 然 估计 的 模型 选择 标准 ) 确定 聚 类 的 数目 。 

分 析 方 法 ” 育 类 分 析 可 基于 以 下 的 一 种 或 多 种 通用 方法 : 

e 层级 或 非 层 级 统计 方法 〈 例 如 大 均值 、 太 模式， 等 ) 

o 自 组织 映 射 (Self-Organizing Map, SOM) 结构 神经 网 络 

e 模糊 逻辑 (例如 模糊 c- 均 值 算法 ) 

。 遗传 算法 

上 述 各 方法 一 般 使 用 两 种 通用 的 分 类 方法 之 一 : 

。 分 裂 法 所 有 项 目 起 始 于 同一 聚 类 ， 然 后 将 其 分 裂 开 。 

。 聚集 法 ”所 有 项 目 起 始 于 各 自 的 聚 类 ， 然 后 将 这 些 聚 类 合并 到 一 起 。 

大 多 数 聚 类 分 析 方 法 使 用 距离 测度 计算 项 目 对 之 间 的 远近 。 常 用 的 聚 类 测度 包括 欧 几 里 得 
距离 (两 点 之 间 的 普通 距离 ， 可 用 标尺 测量 ) 和 曼哈顿 距离 (也 称 为 两 点 间 的 直角 距离 或 计 程 
车 距离 ) 。 这 些 聚 类 测度 常 基于 测量 的 实际 距离 ， 但 这 不 是 必须 的 ， 典 型 例子 如 信息 系统 开发 。 
在 建立 这 些 距离 时 ， 可 以 使 用 加 权 平 均 数 。 例 如 ， 在 信息 系统 开发 项 目 中 ， 可 以 通过 输入 、 输 
出 、 流 程 和 特定 数据 彼此 之 间 的 相似 度 ， 将 各 个 系统 模块 关联 起 来 。 然 后 ,将 这 些 因素 合计 ， 按 
项 目 配对 ， 得 到 单独 的 距离 测度 。 l 

kK- 均值 聚 类 算法 k HERXRA 〈 其 中 大 代表 预定 义 的 聚 类 数目 ) 是 无 可 争议 的 引用 最 多 
的 聚 类 算法 。 该 算法 源 于 传统 的 统计 分 析 。 顾 名 思 义 ， 该 算法 将 各 个 数据 点 (客户 、 事 件 、 对 
象 等 ) 分 配 到 中 心 (也 称 为 质心 ) 最 接近 的 聚 类 中 。 质 心 由 聚 类 中 所 有 点 的 平均 值 来 计算 。 也 
就 是 说 ， 其 坐标 分 别 为 聚 类 中 所 有 点 各 维度 的 算术 平均 。 以 下 是 算法 步骤 〈 如 图 4-12 所 示 ) : 





步骤 1 步骤 2 步骤 3 














图 4-12 大 均值 算法 步骤 的 图 形 说 明 


初始 化 步骤 : 选择 聚 类 数目 〈 即 天 的 值 ) 。 

步骤 1: 随机 产生 类 个 任意 点 作为 初始 聚 类 中 心 。 

步骤 2: 将 各 个 点 分 配 到 最 接近 的 聚 类 中 心 。 

步骤 3: 重新 计算 新 的 聚 类 中 心 。 

重复 步骤 : 重复 步骤 2 和 步骤 3， 直 到 满足 某 聚 合 标准 〈 通 常 点 到 聚 类 的 指派 变 得 稳定 了 ) 。 


4.4.4 关联 规则 挖 所 


关联 规则 挖掘 是 一 种 常用 的 数据 挖掘 方法 ， 常 被 用 做 例子 来 向 技术 背景 较 弱 的 读者 解释 数据 控 
掘 是 什么 ， 以 及 数据 挖掘 能 做 什么 。 大 多 数 读 者 可 能 都 听 说 过 著名 的 〈 或 声名 狼藉 的 ， 取 决 于 如 何 
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看 待 ) 在 零售 店 啤酒 销售 和 尿布 销售 之 间 发 现 的 关联 。 据 说 ， 某 大 型 连锁 超市 〈 可 能 是 沃尔玛 ， 可 
能 不 是 ; 究竟 是 哪 家 连锁 超市 并 没有 一 致意 见 ) 对 客户 购买 行为 做 了 一 次 分 析 ， 发 现 啤酒 购买 和 尿 
布 购买 在 统计 上 有 显著 相关 性 。 根 据 推理 ， 其 原因 是 父亲 (假定 为 年 轻 男 人 ) 会 中 途 在 超市 停车 为 
宝宝 (特别 是 在 礼拜 四 ) 购买 尿布 ， 而 由 于 没有 时 间 像 平常 那样 再 去 运动 酒吧 ， 他 们 也 会 买点 啤 
酒 。 由 于 这 一 发 现 ， 据 说 该 连锁 超市 将 尿布 放 在 啤酒 旁边 ， 结 果 是 两 者 的 销售 量 都 增加 了 。 

本 质 上 ， 关 联 规则 挖掘 的 目标 在 于 发 现 大 型 数据 库 变量 (字段 ) 之 间 的 有 趣 关系 (密切 关 
系 ) 。 由 于 其 在 商业 问题 中 的 成 功 应 用 ， 通 常 将 它 称 为 购物 篮 分 析 。 购 物 篮 分 析 的 主旨 在 于 识别 
通常 在 一 起 购买 的 〈 在 同一 购物 篮 中 一 起 出 现 ， 购 物 篮 可 以 是 杂货 铺 中 的 实际 购物 篮 ， 也 可 以 
是 电子 商务 Web 网 站 的 虚拟 购物 篮 ) 不 同 产 品 (或 服务 ) 之 间 的 强 关联 。 例 如 ， 购 物 篮 分 析 可 
能 发 现 类似 模 式 ,“ 若 客户 购买 笔记 本 电脑 和 防 病毒 软件 ， 那 么 他 也 会 购买 延长 70% 服务 时 间 的 
延期 服务 计划 ”。 购 物 篮 分 析 的 输入 是 简单 的 销售 点 交易 数据 ， 将 很 多 一 起 购买 的 产品 或 服务 
(就 像 一 张 购物 小 票 的 内 容 ) 列 人 一 个 单独 的 交易 实例 表格 。 分 析 结 果 提 供 的 宝贵 信息 能 够 用 于 
更 好 地 理解 客户 购买 行为 ， 从 而 最 大 限度 地 提高 商业 交易 利润 。 商 店 可 以 充分 利用 这 些 知识 : 
(1) 把 这 些 商品 放 在 彼此 旁边 ， 方 便 客户 一 起 拿 取 ， 吕 免 购 买 其 他 东西 时 忘 了 买 某 件 商 品 ( 增 
加 销售 量 ) ; (2) 将 这 些 商 品 打 包 促 销 (如 果 其 中 的 其 他 商品 都 在 打折 ， 那 么 不 单独 销售 其 中 某 
件 商品 ) ; (3) 将 这 些 商品 分 开放 置 ， 客 户 必 须 走 过 通道 寻找 所 要 购买 的 东西 ， 这 时 客户 也 可 能 
会 看 到 并 购买 其 他 商品 。 

购物 篮 分 析 的 应 用 包括 交叉 销售 、 店 铺设 计 、 目 录 设 计 、 电 子 商 务 网 站 设计 、 在 线 广告 优 
化 、 产 品 定价 和 促销 配置 。 本 质 上 ， 购 物 篮 分 析 帮 助 商 店 从 客户 购买 模式 中 推断 出 其 需求 和 偏 
好 。 在 商业 志 界 之 外 ， 管 理 规则 也 成 功 地 应 用 于 发 现 症状 和 疾病 、 诊 断 和 病人 特征 及 疗法 (用 
于 医学 决策 支持 系统 ) 、 基 因 和 其 功能 〈 用 于 基因 组 项 目 ) 等 之 间 的 关系 。 

关于 关联 规则 挖掘 能 够 发 现 的 模式 /关系 ， 应 该 问 的 一 个 很 好 的 问题 是 , “所 有 的 关联 规则 
都 是 有 趣 且 有 用 的 吗 ?” 关 联 规则 挖掘 使 用 两 个 通用 指标 来 回答 这 个 问题 : 支持 度 和 置信 和 度 。 在 
定义 这 些 术 语 前 ， 让 我 们 先 稍微 专业 一 些 ， 看 看 一 条 关联 规则 看 起 来 是 什么 样 的 : 

X=>Y[S% ,C% ] 
{笔记 本 电脑 , 防 病毒 软件 } S| ERS it Xl | [30% ,70% ] 

式 中 ，X 一 一 产品 或 服务 ; 称 为 左手 边 (Left-Hand Side, LHS), 或 前 因 ; 7 一 一 产品 或 服 
务 ， 称 为 右手 边 (Right-Hand Side, RHS), 或 后 果 ; KB, 对 和 YY 关联 。5 为 特定 规则 的 支持 
E, C 为 置信 和 度 。 规 则 的 支持 度 用 于 度量 相关 产品 或 服务 (MEFA + 右手 边 = 笔记 本 电脑 、 防 
病毒 软件 和 延期 服务 计划 ) 在 同一 交易 中 共同 出 现 的 频率 ， 也 就 是 数据 集中 包含 特定 规则 中 提 
到 的 所 有 产品 和 服务 的 交易 比例 。 在 本 例 的 假想 商店 数据 库 中 ， 大 约 有 30% 的 交易 在 单 张 销售 
小 票 中 包含 所 有 3 种 产品 。 规 则 的 置信 度 度量 右手 边 〈 后 果 ) 和 左手 边 (前 因 ) 中 的 产品 和 服 
务 共同 出 现 的 频 度 ， 也 就 是 包含 LHS 同时 也 包含 RHS 的 交易 比例 。 换 句 话 说， 就 是 在 规则 左手 
边 LHS 已 经 存在 的 情况 下 ， 交 易 中 发 现 规则 右手 边 RHS 的 条 件 概率 。 

有 多 种 算法 可 用 于 生成 关联 规则 。 最 著名 的 算法 包括 Apriori Eclat 和 FP- Growth。 这 些 算法 
只 做 了 一 半 工 作 ， 即 识别 出 数据 库 中 的 频繁 项 集 。 频 繁 项 集 指 的 是 在 一 次 交易 (例如 一 个 购物 
E) 中 频繁 共同 出 现 的 任意 数目 的 项 目 。 一 旦 识别 出 频繁 项 集 ， 就 需要 将 其 转换 成 包括 前 因 和 
后 果 两 部 分 的 规则 。 从 频繁 项 集中 确定 规则 是 一 个 简单 的 匹配 过 程 ， 但 该 过 程 对 于 大 型 交易 数 
据 库 可 能 非常 耗 时 。 尽 管 规则 的 每 部 分 都 可 以 包含 很 多 项 目 ， 但 实际 中 的 后 果 部 分 通常 仅 包 含 
一 个 单独 项 目 。 下 一 节 将 解释 一 种 最 流行 的 频繁 项 集 识 别 算法 。 

Apriori 算法 “Apriori 算法 是 最 通用 的 一 种 关联 规则 发 现 算法 。 给 定 一 组 项 集 (例如 零售 交 
易 集合 、 购 买 的 每 样 商品 ) ， 算 法 试图 发 现 至 少 有 最 低 数 量 公共 项 集 的 子 集 〈 即 符合 最 低 限 度 的 
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支持 度 ) 。Apriori 使 用 自 底 向 上 的 方法 ， 频 繁 项 集 每 次 扩展 一 项 〈 一 种 候选 集 生成 方法 ， 其 中 频 
繁 项 集 的 大 小 从 一 项 子 集 增长 到 二 项 子 集 ， 然 后 是 三 项 子 集 ， 如 此 继续 ) ， 每 一 级 的 候选 组 对 最 
小 支持 度数 据 进行 测试 。 当 不 能 进一步 成 功 找到 扩展 时 ， 算 法 终止 。 

考虑 以 下 实例 。 某 杂货 店 通过 SKU (库存 单元 ) 跟踪 销售 交易 ， 了 解 通常 哪些 商品 会 在 一 
起 购买 。 图 4-13 显示 了 交易 数据 库 以 及 识别 频繁 项 集 的 后 续 步 又 。 交 易 数据 库 中 的 每 一 库存 单 
元 对 应 一 个 产品 ， 例 如 “1 = 黄油”,“2 = 面包 ”,“3 = 水 ”等 。Apriori 算法 的 第 一 步 是 计算 各 项 
E (一 项 项 集 ) 频率 〈 即 支持 度 ) 的 总 和 。 在 这 个 简化 的 例子 中 ， 设 最 小 支持 度 为 3 (50%, 
表示 若 某 项 集 在 数据 库 的 每 6 条 交易 中 至 少 出 现 3 次 ， 则 可 作为 频繁 项 集 ) 。 由 于 所 有 一 项 项 集 
的 支持 度 都 至 少 等 于 3， 所 以 将 其 都 作为 频繁 项 集 。 不 过 ， 若 任 一 一 项 项 集 为 非 频繁 项 集 ， 其 也 
不 会 成 为 二 项 项 集成 员 。Apriori 通过 这 种 方式 对 所 有 可 能 的 项 集 树 进行 了 剪 枝 。 如 图 4-13 所 示 ， 
所 有 可 能 的 二 项 项 集 使 用 一 项 项 集 产生 ， 并 通过 交易 数据 库 计算 其 支持 度 。 因 为 二 项 项 集 
{1，31} 的 支持 度 小 于 3， 所 以 其 将 不 会 被 包括 在 产生 下 一 级 项 集 ( 三 项 项 集 ) 的 频繁 项 集中 。 该 
算法 看 起 来 很 简单 ， 其 实 仅仅 是 对 小 数据 集 而 言 才 这 样 。 对 于 较 大 的 数据 集 ， 特 别 是 当 其 包含 大 
量 很 少 出 现 的 项 目 , 或 者 包含 少量 多 次 出 现 的 项 目 时 ,搜索 和 计算 将 变 成 一 个 计算 密集 过 程 。 


原始 交易 数据 一 项 项 集 二 项 项 集 三 项 项 集 
交易 号 |g a) (可 全 | 支持 度 SKU) | 支持 度 (SKU) | 支持 度 
1,2,3,4 1 1,2 | 124 3 
2,3,4 2 1,3 | 234 3 
3 
: 


3 
6 

4 a 
5 23 


1 1,2,3,4 2,4 
1 2,4 3,4 
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图 4-13 Ariori 算法 中 的 频繁 项 集 识别 


4. 4 节 复 习题 


. 指出 至 少 3 种 主要 的 数据 挖掘 方法 。 

.请 举例 说 明 何 种 情形 适合 使 用 分 类 数据 挖 据 技 术 ， 何 种 情形 适合 使 用 回归 数据 挖掘 技术 。 
. 列 出 并 简单 定义 至 少 两 种 分 类 技术 。 

.比较 和 筛选 最 佳 分 类 技术 的 标准 有 哪些 ? 

- 简单 描述 常用 决策 树 算法 。 

. 给 出 基尼 系数 的 定义 ， 并 说 明基 尼 系 数 如 何 进行 度量 ? 

. 举例 说 明 何 种 情形 适合 使 用 聚 类 分 析 数 据 挖掘 技术 。 

.说明 聚 类 分 析 和 分 类 的 主要 区 别 。 

. 有 哪些 聚 类 分 析 方 法 ? 

10. 举例 说 明 何 种 情形 适合 使 用 关联 数据 挖掘 技术 。 


4.5 数据 挖掘 中 的 人 工 神 经 网 络 

在 其 他 技术 产生 的 解决 方案 不 能 令 人 满意 时 ， 神 经 网 络 已 经 成 为 一 种 先进 的 数据 挖掘 工具 。 
顾名思义 ， 在 信息 处 理 时 ， 神 经 网 络 具 有 生物 启发 建 模 能 力 (表示 类 似 于 人 脑 )。 由 于 具有 从 数 
据 中 “学 习 ” 的 能 力 、 非 参数 特性 〈 即 没有 严格 假设 ) 和 概括 能 力 (Kaykin, 2009), ， 所 以 在 很 
多 预测 和 商业 分 类 应 用 中 ， 神 经 网 络 已 经 被 证 明 是 一 种 很 有 前 途 的 计算 系统 。 神 经 计算 是 指 机 
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器 学 习 中 的 一 种 模式 识别 方法 。 神 经 计算 产生 的 模型 结果 常 被 称 为 人 工 神经 网 络 〈Artificial Neu- 
ral Network, ANN) 或 神经 网 络 。 神 经 网 络 是 数据 挖掘 工具 包 的 关键 组 件 。 神 经 网 络 大 量 应 用 于 
金融 、 营 销 、 制 造 、 运 营 管理 、 信 息 系统 和 社会 行为 分 析 等 领域 中 。 

生物 神经 网 络 由 很 多 大 型 互联 神经 元 组 成 。 每 一 个 神经 元 都 有 轴 突 和 树 突 ， 这 些 指 状 突起 
通过 收发 生物 化 学 信号 使 得 神经 元 能 够 和 其 相 邻 的 其 他 神经 元 通信 。 和 生物 神经 网 络 多 少 有 些 
类 似 的 是 ， 人 工 神 经 网 络 由 称 为 人 工 神经 元 的 简单 互联 处 理 单 元 (Processing Element, PE) 组 
成 。 和 生物 神经 元 类 似 ， 人 工 神经 网 络 中 的 处 理 单元 共同 并 行 处 理 信息 。 人 工 神 经 网 络 拥有 一 些 
和 生物 神经 网 络 类似 的 理想 特性 ， 例 如 学 习 能 力 、 自 组 织 能 力 和 支持 容错 的 能 力 。 图 4-14 显示 
了 生物 神经 网 络 和 人 工 神经 网 络 之 间 的 类 似 之 处 。 





生物 神经 网 络 


突 触 树 突 





























图 4-14 生物 神经 网 络 和 人 工 神经 网 络 类 比 


4.5.1 人 工 神经 网 络 的 要 素 


处 理 单元 人工 神经 网 络 的 处 理 单元 本 质 上 是 人 工 神经 元 。 和 生物 神经 元 类 似 ， 每 一 处 理 
单元 接收 输入 ， 进 行 处 理 后 ， 传 递 一 个 输出 ， 如 图 4-14 下 半 部 分 所 示 。 输 入 可 以 是 原始 输入 数 
据 ， 也 可 以 是 其 他 处 理 单元 的 输出 。 输 出 可 以 是 最 终结 果 ， 也 可 以 作为 其 他 神经 元 的 输入 。 

信息 处 理 ”神经 元 接收 到 的 输入 要 经 过 两 步 处 理 ， 得 到 输出 : 求 和 函数 和 转换 函数 (LA 
4-14 的 下 半 部 分 ) 。 求 和 函数 产生 输入 及 其 连接 权 值 的 和 。 转 换 函 数 取 求 和 函数 的 生成 值 ， 进 行 
一 个 非 线性 函数 〈 常 为 S 型 函数 ) 运算 ， 然 后 生成 该 神经 元 的 输出 值 。 

网 络 结构 “每 个 人 工 神 经 网 络 由 一 些 分 层 神经 元 (或 PE) 组 成 。 图 4-15 显示 了 一 个 典型 的 
神经 网 络 分 层 结构 。 如 图 所 示 , 包括 3 层 : 输入 层 、 中 间 层 ( 隐 含 层 )、 输 出 层 。 隐 含 层 中 的 神 
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经 元 取 前 一 层 的 输入 ， 将 其 转换 为 输出 ， 再 进一步 处 理 。 在 输入 层 和 输出 层 之 间 可 以 有 多 个 隐 含 
Z, 但 通常 只 使 用 一 个 隐 含 层 。 这 种 分 层 神经 网 络 结构 通常 称 为 多 层 感知 器 〈Multi- Layered Per- 
ceptron, MLP), MLP 能 够 得 到 高 度 精确 的 分 类 和 回归 预测 模型 。 除 了 MLP， 人 工 神经 网 络 还 有 
其 他 结构 ， 例 如 Kohonen 自 组 织 特征 映射 〈 常 用 于 聚 类 问题 ) Hopfield 网 络 (用 于 解决 复杂 计 
算 问 题 )、 循 环 网 络 ( 和正 反馈 相反 ， 该 结构 也 允许 后 向 连接 ) 和 概率 型 网 络 ( 权 值 可 基于 由 训 
练 数据 得 到 的 统计 尺度 进行 调整 ) 。 





反 向 传播 

















输入 层 隐 含 层 输出 层 








图 4-15 支持 反 向 传播 学 习 算法 的 多 层 感知 神经 网 络 


反 向 传播 ” 反 向 传播 是 一 种 前 馈 MLP 网 络 学 习 机 制 。 这 种 学 习 机 制 遵循 一 个 迭代 过 程 ， 网 
络 输出 和 理想 输出 之 间 的 差异 被 反馈 到 网 络 ， 用 以 调整 网 络 权 值 ， 从 而 得 到 更 接近 实际 值 的 输 
出 结果 。 


4.5.2 人工 神经 网 络 应 用 


由 于 其 能 够 对 高 度 复杂 的 现实 世界 问题 建 模 ， 所 以 学 术 界 和 业界 已 经 发 现 了 人 工 神经 网 络 
的 很 多 用 途 。 很 多 应 用 已 经 为 过 去 认为 不 可 解 的 问题 带 来 了 解决 方案 。 在 最 高 概念 层次 ， 神 经 网 
络 应 用 一 般 可 以 分 为 4 类 (对 应 于 数据 挖掘 的 一 般 处 理 任务 ): 

1. 分 类 ”神经 网 络 可 以 经 训练 预测 一 个 类 别 〈 即 类 别 标签 ) 输出 变量 。 在 数学 意义 上 ， 这 
涉及 将 一 个 n 维 空间 分 成 不 同 区 域 ， 且 给 定 空 间 中 的 一 点 ， 应 该 能 够 确定 其 属于 哪个 区 域 。 很 多 
现实 世界 的 模式 识别 应 用 都 采用 了 这 种 思想 ， 每 个 模式 被 转换 为 一 个 多 维 点 ， 并 分 类 成 特定 组 ， 
分 别 表达 一 个 已 知 模式 。 分 类 任务 使 用 的 神经 网 络 类 型 包括 前 馈 网 络 (例如 支持 反 向 传播 学 习 
的 多 层 感 知 神经 网 络 ) 、 径 向 基 函 数 和 概率 神经 网 络 。 应 用 案例 4. 7 介绍 了 一 个 有 趣 的 利用 神经 
网 络 预测 特征 分 析 和 改善 啤酒 风味 的 案例 。 
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应 用 案例 4.7 库 尔 斯 公司 利用 神经 网 络 改善 啤酒 风味 


位 于 英格兰 啤酒 之 都 特 伦 特 河畔 伯 顿 的 库 尔 斯 酿酒 公司 ， 以 拥有 英国 最 好 的 啤酒 品牌 、 
20% 的 市 场 占 有 率 、 多 年 的 经 验 和 行业 最 优秀 的 人 才 为 荣 。 热 门 品牌 包括 Carling (HARM 
销 的 啤酒 )、Grolsch、 库 尔 斯 精细 淡 啤 酒 、Sol 和 Korenwolf, 

问题 

关于 喝 什 么 饮料 ， 今 天 的 客户 有 很 多 种 选择 。 客 户 的 选择 依赖 于 各 种 因素 ， 包 括 情绪 、 
地 点 和 场合 。 库 尔 斯 公司 的 目标 是 无 论 何 种 情形 ， 确 保 客户 选择 库 尔 斯 品牌 产品 。 

按照 库 尔 斯 公司 的 说 法 ， 创 意 是 长 期 成 功 的 关键 。 要 成 为 客户 选择 的 品牌 ， 库 尔 斯 需要 创 
造 性 地 预测 客户 变化 无 常 的 情绪 。 对 啤酒 来 说 ， 很 重要 的 一 个 问题 在 于 风味 ; 各 种 啤酒 都 有 自 
己 独 特 的 风味 。 这 些 风 味 多 数 由 感官 组 评定 来 确定 ， 只 是 这 种 评定 要 耗费 时 间 。 如 果 库 尔 斯 能 
够 仅仅 通过 化 学 成 分 来 了 解 啤 酒 风 味 ， 那 么 就 可 以 为 制作 适合 客户 预期 的 啤酒 开辟 新 途径 。 

目前 还 不 是 很 清楚 化 学 分 析 和 啤酒 风味 之 间 的 关系 。 有 大 量 啤酒 化 学 成 分 和 感官 分 析 的 
数据 。 库 尔 斯 需要 一 种 机 制 将 两 者 联系 起 来 。 神 经 网 络 被 用 于 建立 化 学 成 分 和 感官 分 析 之 间 
的 联系 。 

解决 方案 

多 年 以 来 ， 库 尔 斯 公司 积累 了 数量 可 观 的 最 终 产 品 分 析 数 据 ， 并 辅 之 以 由 经 训练 的 内 部 
测试 小 组 提供 的 感官 数据 。 下 表 列 出 了 一 些 分 析 数 据 输 入 和 感官 数据 输出 : 




















分 析 数 据 : 输入 感官 数据 : 输出 分 析 数 据 : 输入 感官 数据 : 输出 
酒精 酒 味 乙酸 异 丁 酯 烧 焦 
彩色 酯 味 TRA 啤酒 花 
苦味 设计 麦芽 味 乙酸 异 戊 酯 乳脂 糖 
乙酸 乙醚 颗粒 己 酸 乙 酯 att 





首先 使 用 的 是 限于 单一 品质 和 风味 的 单 神经 网 络 ， 对 分 析 数 据 和 感官 数据 间 关 系 建 模 。 
该 神经 网 络 基于 NeuroDimension 公司 (nd. com) 提供 的 解决 方案 包 ， 由 一 个 包括 两 个 隐 含 层 
的 多 层 感 知 器 架构 组 成 。 数 据 在 网 络 内 被 标准 化 ， 从 而 能 够 对 各 感官 输出 进行 比较 。 神 经 网 
络 通 过 相关 输入 /输出 的 组 合 表 达 进 行 训练 ， 学 习 输 入 和 输出 之 间 的 关系 。 当 网 络 错误 100 步 
以 内 没有 明显 改善 时 ,训练 自动 终止 。 训 练 被 执行 50 次 ， 以 保证 能 够 计算 得 到 相当 数量 的 普 
通 网 络 错 误 用 于 比较 。 在 每 次 训练 运行 以 前 ， 先 通过 随机 化 数据 源 记录 提出 一 个 不 同 的 训练 
交叉 检验 数据 集 ， 以 消除 任何 偏差 。 

这 种 技术 产生 的 结果 很 差 ， 主 要 源 于 两 个 因素 。 首 先 ， 集 中 于 单一 产品 品质 意味 着 数据 波 
动 非常 少 ， 神 经 网 络 不 能 从 数据 中 提取 出 有 用 关系 。 其 次 ， 所 给 出 的 输入 很 可 能 只 有 一 个 子 集 
对 所 选 啤酒 风味 有 作用 。 和 神经 网 络 性 能 受到 了 由 对 风味 没有 作用 的 输入 产生 的 “噪声 ”影响 。 

为 了 解决 第 一 个 问题 因素 ， 在 训练 范围 中 包括 了 更 多 样 化 的 产品 范围 。 识 别 最 重要 的 分 
析 输 入 更 具有 挑战 性 。 该 挑战 是 通过 使 用 一 个 能 够 对 输入 的 所 有 可 能 组 合 进 行 神经 网 络 训练 
的 软件 开关 解决 的 。 软 件 开关 并 不 禁止 重要 输入 ; 如 果 重 要 输入 被 禁止 ， 则 可 以 预期 网 络 错 
误 将 增加 。 若 被 禁止 的 输入 无 关 紧要 ， 则 网 络 错误 可 能 维持 不 变 ， 也 可 能 因为 噪声 被 除去 而 
减少 。 这 种 方法 被 称 为 穷 举 搜索 ， 因 为 其 评估 所 有 可 能 的 组 合 。 虽 然 这 种 技术 概念 简单 ， 但 
在 计算 上 却 由 于 输入 数量 巨大 而 不 切实 际 ; 所 以 每 种 风味 的 可 能 组 合 数目 达到 1 670 万 。 
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需要 一 种 更 高 效 的 方法 搜索 相关 输入 。 遗 传 算法 可 以 解决 该 问题 。 遗 传 算法 能 够 利用 不 
同 的 输入 开关 对 神经 网 络 的 误差 项 做 出 响应 。 遗 传 算法 的 目标 在 于 最 大 限度 地 减少 网 络 误差 
项 。 当 网 络 误差 项 最 小 时 ， 开 关 设 置 可 以 识别 出 最 有 可 能 预测 风味 的 分 析 输 入 。 

结果 

在 确定 有 哪些 相关 输入 后 ， 就 有 可 能 识别 出 哪些 风味 可 以 进行 更 熟练 的 预测 。 使 用 原先 
识别 出 的 相关 输入 对 网 络 进行 多 次 训练 。 在 每 次 训练 开始 以 前 ， 网 络 数据 被 随机 化 ， 保 证 使 
用 的 训练 数据 集 和 交叉 检验 数据 集 不 同 。 每 次 训练 运行 完毕 后 ， 网 络 错误 被 记录 下 来 。 用 于 
评估 训练 网 络 性 能 的 测试 集 包 括 样本 数据 中 的 大 约 80 条 记录 。 和 神经 网 络 使 用 化 学 输入 精确 预 
测 出 了 一 些 风 味 。 例 如 ,“ 烧 焦 ” 风 味 的 预测 相关 系数 为 0. 87。 

目前 ， 分 析 数 据 正 被 用 于 预测 有 限 数量 的 风味 。 由 于 潜在 的 相互 作用 和 高 度 可 变 的 灵敏 
度 阅 值 ， 感 官 数据 极度 复杂 。 标 准 仪 器 分 析 往 往 倾 向 于 总 体 参 数 ， 而 且 由 于 实际 经 济 原因 ， 
对 很 多 风味 活跃 化 合 物 根本 不 测量 。 只 有 将 大 量 的 风味 作用 分 析 物 都 考虑 进来 ， 才 能 对 风味 
和 分 析 数 据 之 间 的 关系 有 效 建 模 。 此 外 ， 除 了 明显 的 风味 活跃 物质 以 外 ， 总 体感 官 概况 中 还 
应 当 考 虑 口感 和 身体 因素 。 


来 源 : Based on C. I. Wilson and L. Threapleton, “ Application of Artificial Intelligence for Predicting Beer Flavours from 





Chemical Analysis,” Proceedings of the 29th European Brewery Congress , Dublin, Ireland, May 17 - 22 ,2003 , neu- 
rosolutions. com/resources/apps/beer. html ( accessed January 2010 ) ; R. Nischwitz, M. Goldsmith, M. Lees, 
P. Rogers ,and L. MacLeod, “ Developing Functional Malt Specifications for Improved Brewing Performance,” The Re- 





gional Instiute Ltd. , regional. org. au/au/abts/1999/nischwitz. htm( accessed December 2009 ). 





2. 回归 ”可 以 训练 神经 网 络 用 于 预测 数值 型 ( 即 实数 或 整数 ) 输出 变量 。 若 一 个 网 络 在 对 
已 知 值 序列 建 模 时 适应 得 很 好 ， 则 其 也 可 用 于 对 未 来 结果 进行 预测 。 一 个 明显 的 回归 任务 例子 
是 预测 股票 市 场 指数 。 用 于 回归 任务 的 人 工 神经 网 络 类 型 包括 前 馈 型 网 络 (例如 支持 反 向 传播 
学 习 的 多 层 感 知 器 ) AEE eR. 

3. RX 在 有 些 情况 下 ， 数 据 集 非常 复杂 ， 不 存在 明显 的 数据 分 类 方法 。 人 工 神经 网 络 可 
以 用 于 识别 这 些 数据 的 特征 ， 并 且 在 缺少 数据 先 验 知识 的 情况 下 将 其 分 为 不 同 的 类 别 。 这 种 技 
术 对 于 识别 商业 和 科学 问题 中 的 事物 自然 分 组 很 有 用 。 用 于 解决 聚 类 问题 的 人 工 神经 网 络 类 型 
包括 自 适应 共振 理论 网 络 和 自 组 织 映 射 神经 网 络 。 

4. 关联 神经 网 络 可 以 被 训练 “ 记 住 ”很 多 独特 的 模式 。 这 样 “REMAKE, 
络 可 以 将 其 和 记忆 中 最 接近 的 模式 关联 ， 恢 复 该 模式 原来 的 形式 。 当 数据 包含 噪声 或 不 完整 时 ， 
这 对 于 恢复 噪声 数据 和 识别 隐藏 对 象 或 事件 非常 有 用 。 用 于 解决 关联 问题 的 人 工 神 经 网 络 类 型 
有 Hopfield 网 络 。 


4. 5 节 复 习题 


1. 什么 是 神经 网 络 ? 

2. 生物 神经 网 络 和 人 工 神经 网 络 之 间 有 哪些 共同 点 ? 有 哪些 区 别 ? 
3. 什么 是 神经 网 络 结构 ? 有 哪些 常用 的 神经 网 络 结构 ? 

4. 多 层 感知 器 神经 网 络 是 如 何 学 习 的 ? 


4.6 数据 挖 气 软 件 工具 


很 多 软件 商都 提供 了 强大 的 数据 挖掘 工具 。 数 据 挖掘 软件 供应 商 包括 SPSS (PASW Model- 
er) SAS (Enterprise Miner) 、StatSoft (Statistica Data Miner), Salford (CART, MARS, TreeNet, 
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RandomForest) , Angoss ( KnowledgeSTUDIO, KnowledgeSeeker) 和 Megaputer ( PolyAnalyst) 。 可 
以 看 出 ， 大 多 数 热门 工具 都 是 由 大 型 统计 软件 公司 (SPSS, SAS 和 StatSoft) 开发 的 。 大 多 数 
商务 智能 工具 供应 商 (例如 ，IBM Cognos, Oracle Hyperion, SAP Business Objects, MicroStrate- 
gy, Teradata 和 Microsoft) 在 其 软件 产品 中 也 会 集成 某 种 程度 的 数据 挖掘 功能 。 这 些 BI 工具 主 
要 关注 的 仍然 是 多 维 建 模 和 数据 可 视 化 ， 因 此 并 不 被 看 成 是 数据 挖掘 工具 软件 商 的 直接 竞 
争 者 。 

除了 这 些 商业 工具 以 外 ， 还 可 以 使 用 一 些 开 源 或 免费 的 数据 挖掘 软件 工具 。Weka 怀 卡 托 智 
能 分 析 环 境 (Waikato Environment for Knowledge Analysis，Weka) 可 能 是 最 流行 的 免费 开源 数据 
挖掘 工具 ， 由 新 西 兰 Waikato 大 学 的 研究 者 们 开发 (该 工具 可 以 从 cs. waikato. ac. nz/ml/we- 
ka/ FR). Weka 包括 很 多 支持 不 同 数据 挖掘 工作 的 算法 ， 且 用 户 界面 很 直观 。RapidMiner 
(由 Rapid-I 开发， 可 从 rapid-i. com FR) 也 是 一 个 新 近 发 布 的 免费 〈 非 商用 ) 数据 挖掘 工 
具 。 该 工具 具有 图 形 增强 用 户 界 面 、 支 持 相 当 多 的 算法 、 且 集成 了 多 种 数据 可 视 化 特征 ， 这 
些 都 使 其 在 各 种 免费 工具 中 别具一格 。 商 业 工具 (如 Enterprise Miner, PASW 和 Statistica) 和 
免费 工具 (如 Weka 和 RapidMiner) 之 间 的 主要 区 别 在 于 其 计算 效率 。 对 涉及 特大 数据 集 的 数 
据 挖掘 任务 ， 免 费 软 件 花 费 的 时 间 可 能 要 远 远 超过 商业 软件 。 在 有 些 情 况 下 ， 使 用 免费 软件 
甚至 是 不 可 行 的 〈 即 由 于 计算 机 存储 空间 的 低 效 而 造成 崩溃 ) 。 表 4-6 列 出 了 一 些 主要 产品 及 
其 Web 网 址 。 

在 数据 挖掘 研究 中 ，Microsoft 的 SQL Server 已 经 成 为 越 来 越 热门 的 商务 智能 功能 套件 。 其 
中 ， 数 据 和 模型 都 存储 在 同一 关系 型 数据 库 环 境 中 ， 使 得 模型 管理 相当 容易 。Microsoft 企业 联 
盟 在 全 世界 范围 内 为 教学 和 科研 提供 Microsoft SQL Server 2008 软件 包 访问 服务 。 该 联盟 是 为 了 让 
全 世界 的 大 学 能 够 访问 企业 技术 而 不 必 在 校园 内 进行 必需 的 软 硬 件 维护 建立 的 。 联 盟 提供 各 种 
各 样 的 商务 智能 开发 工具 ( 例如， 数据 挖掘 、 建 立 立方 体 和 商业 报告 ) 和 大 量 源 自 山姆 会 员 商 
店 、 狄 乐 百 货 和 泰 森 食品 的 大 规模 实际 数据 集 。 图 4-16 显示 了 SQL Server 2008 商务 智能 开发 套 
件 中 客户 流失 分 析 决策 树 的 开发 。Microsoft 企业 联盟 是 免费 的 ， 只 能 用 于 学 术 目 的 。 企 业 系 统 主 
机 位 于 阿肯色 大 学 的 山姆 沃 尔 顿 商学 院 ， 人 允许 联盟 成 员 和 其 学 生 使 用 简单 的 远程 桌面 连接 访问 
这 些 资源 。 通 过 网 址 Enterprise. waltoncollege. uark. edu/mec/ 可 以 得 到 如 何 成 为 联盟 成 员 的 细 
节 信 息 、 易 于 学 习 的 指导 手册 及 相关 示例 。 


表 4-6 ”部 分 数据 挖掘 软件 产品 


产品 名 称 网 址 (URL) 















































Clementine | spss. com/ Clementine 

Enterprise Miner sas. com/ technologies/ bi/ analytics/ index. html 
Statistica statsoft. com/ products/ dataminer. htm 

Intelligent Miner ibm. com/ software/ data/ iminer 

PolyAnalyst megaputer. com/ polyanalyst. php 

CART, MARS, TreeNet, RandomForest salford- systems. com 

Insightful Miner insightful. com 

XLMiner xlminer. net 

KXEN (Knowledge eXtraction Engines) kxen. com 

GhostMiner | fqs. pl/ ghostminer 

Microsoft SQL Server Data Mining microsoft. com/ sqlserver/2008/ data- mining. aspx 
Knowledge Miner knowledgeminer. net 

Teradata Warehouse Miner ner. com/ products/ software/teradata_mining. htm 
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( 续 ) 
产品 名 称 Wit (URL) 
Oracle Data Mining ( ODM) otn. oracle. com/products/bi/9idmining. html 
Fair Isaac Business Science | ¥ fairisaac. com/edm 
DeltaMaster | bissantz. de 








iData Analyzer infoacumen. com 















Orange Data Mining Tool ailab. si/orange/ 


Zementis Predictive Analytics 









zementis. com 
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图 4-16 SQL Server 2008 中 的 决策 树 开发 屏幕 截图 
来 源 : Microsoft 企业 联盟 和 Microsoft SQL Server 2008; 经 Microsoft 允许 使 用 . 


2009 年 5 H, kdnuggets. com 就 如 下 问题 对 数据 挖掘 研究 群体 进行 了 一 次 调查 :“ 在 过 去 的 
6 个 月 中 ， 你 使 用 哪 种 数据 挖掘 工具 做 实际 项 目 〈 不 仅仅 是 为 了 评估 )?” 为 使 调查 结果 更 具 代 
表 性 ,来 自 软件 供应 商 的 投票 被 剔除 了 。 往 年 的 经 验 表 明 ， 在 SPSS Clementine, SPSS Statistics 以 
及 SAS Enterprise Miner, SAS Statistics 之 间 具 有 强 相 关 性 ; 因此 ， 这 两 组 工具 系列 的 投票 被 合并 
到 一 起 。 总 共有 364 张 不 同 的 投票 结果 被 计数 排名 。 最 热门 的 工具 是 SPSS PASW Modeler、 
RapidMiner, SAS Enterprise Miner 和 Microsoft Excel。 和 往年 的 调查 结果 ( 见 kdnuggets. com/ 
polls/2008/data- mining- software-tools- used. htm 的 2008 年 数据 ) 相 比 ， 在 商业 工具 中 ，SPSS 
PASW Modeler, StatSoft Statistica 和 SAS Enterprise Miner 表现 出 最 强劲 的 增长 势头 ; 在 免费 软件 
中 ,RapidMiner 和 Orange 增长 最 快 。 调 查 结果 ， 如 图 4-17 所 示 。 
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图 4-17 常用 商业 数据 挖掘 软件 工具 
来 源 : kdnuggets. com， 经 允许 使 用 . 


























应 用 案例 4. 8 客户 流失 预测 一 一 不 同 工 具 的 竞争 





2003 年 ， 杜 克 大 学 /NCR Teradata 咨询 中 心 想 要 寻找 最 好 的 预测 建 模 技 术 来 帮助 无 线 通 信 
供应 商 解决 一 个 困惑 问题 ， 客户 流失 。 尽 管 其 他 行业 同样 面临 客户 转向 竞争 对 手 的 问题 ， 但 
无 线 服务 零售 客户 更 换 服 务 供应 商 的 速度 大 约 是 每 年 25 允 或 每 月 25 例 。 在 20 世纪 90 FRE 
期 ， 新 用 户 增 长 比率 达 50% ， 通 信 公 司 关 注重 点 在 于 获取 新 客户 而 不 是 保持 已 有 客户 。 但 
是 ， 在 增长 速度 放 慢 (24 10%) 的 新 时 期 ， 很 显然 客户 保持 对 于 总 体 利润 率 至 关 重 要 。 

客户 保持 的 关键 在 于 预测 哪些 客户 投奔 竞争 对 手 的 风险 最 高 ， 并 为 其 提供 价值 激励 以 留 
住 客户 。 要 有 效 执行 该 策略 ， 必 须 进行 准确 预测 (流失 记分 卡 ) 以 使 客户 保持 工作 所 针对 的 
客户 对 象 是 合适 的 。 
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数据 

数据 由 一 家 大 型 通信 公司 提供 ， 使 用 的 是 其 2001 年 下 半年 的 客户 记录 。 所 提供 的 账户 汇 
总 数据 属于 已 在 该 公司 至 少 6 个 月 的 100 000 名 客户 。 为 了 帮助 建 模 ， 对 流失 客户 (AME 
60 天 中 离开 该 公司 的 客户 ) 进行 了 采样 ， 使 得 样本 中 有 一 半 是 流失 客户 ， 另 外 一 半 是 随后 60 
天 后 仍然 留 在 该 公司 的 客户 。 采 用 171 个 各 种 各 样 的 潜在 预测 变量 ， 跨 越 标准 服务 供应 商 拥 
有 的 全 部 常规 数据 类 型 。 预 测 数据 包括 : 

© 人 口 统计 资料 : 年龄、 位置、 号 码 、 子 女 年 龄 等 。 

© 财务 状况 : 信用 评分 和 信用 卡 所 有 权 。 

。 产品 规格 : 手机 费用 、 手 机 功能 等 。 

e 电话 使 用 情况 : 各 种 通话 的 号 码 和 时 长 。 

评价 标准 

数据 用 于 支持 预测 建 模 。 参 与 者 〈( 数 据 挖 气 软 件 公司 、 大 学 研究 中 心 和 其 他 非 盈利 咨询 
公司 ) 被 要 求 使 用 其 最 好 的 模型 来 预测 两 组 不 同 客户 的 流失 概率 : 来 自 2001 年 下 半年 的 
51 306 个 “当前 ”样本 和 来 自 2002 年 第 一 季度 的 100 462 个 “未 来 ”样本 。 一 般 认 为 预测 
“未 来 ”数据 比较 难 ， 因 为 外 部 因素 和 行为 模式 都 会 随 着 时 间 的 推移 而 改变 。 在 真实 世界 中 ， 
预测 模型 总 是 被 用 于 未 来 的 数据 ， 比 赛 组 织 者 想 要 复制 一 个 类 似 的 场景 。 

比赛 中 的 每 一 个 竞争 者 都 被 要 求 将 当前 和 未 来 的 评分 样本 按 其 流失 概率 降序 排列 。 比 赛 
组 织 者 利用 所 掌握 的 实际 流失 状态 ， 对 各 预测 模型 计算 两 大 性 能 指标 : 总 体 基 尼 系 数 和 前 10 
位 提升 。 对 当前 和 未 来 两 种 样本 都 计算 这 两 个 指标 值 ， 这 样 每 位 参赛 者 都 有 4 个 性 能 评分 值 。 
包括 比赛 Web 站 点 在 内 的 多 处 网 址 都 详细 说 明了 该 评价 标准 。 前 十 分 提升 很 容易 解释 : 测量 
一 个 模型 所 捕获 的 最 有 可 能 流失 的 客户 中 实际 流失 的 客户 数目 。 

结果 

参赛 者 可 以 在 一 定时 间 范 围 内 ,根据 评价 标准 建立 并 优化 模型 。 在 所 有 类 别 中 的 优胜 者 都 
是 Salford Systems。Salford Systems 使 用 它 的 TreeNet 软件 建立 模型 。TreeNet 是 以 建立 精确 分 类 模 
型 而 著称 的 增强 决策 树 分 析 的 一 种 创新 形式 。 载 判 发现 ， 在 预测 流失 时 ， 决 策 树 和 逻辑 回归 方 
法 一 般 是 所 有 参赛 作品 中 最 好 的 ， 尽 管 他 们 也 承认 比赛 中 并 非 所 有 方法 都 具有 合适 的 代表 性 。 

Salford 的 TreeNet 模型 普遍 捕获 了 最 多 的 流失 客户 ， 并 且 发 现 了 在 171 个 预测 变量 中 ， 哪 
些 对 于 预测 客户 流失 是 最 重要 的 。 在 前 10% 客户 中 ，TreeNet 发 现 的 流失 客户 比 竞争 对 手 的 平 
均 水 平 多 35% 到 45% ， 比 随机 样本 中 可 以 发 现 的 数目 多 3 倍 。 对 于 用 户 群 很 大 的 公司 ， 这 个 
结果 可 以 转换 成 每 月 多 识别 出 上 千 的 潜在 流失 客户 。 对 这 些 客户 采取 合适 的 客户 保持 策略 ， 
每 年 可 以 为 公司 节省 上 百 万 美元 。 

来 源 : Salford Systems, “The Duke/NCR Teradata Churn Modeling Tournament,” salford- systems. com/churn. php( ac- 
cessed April 20,2009) ;and W. Yu,D. N. Jutla,and S. C. Sivakumar, “A Churn- Strategy Aignment Model for Man- 
agers in Mobile Telecom,” Proceedings of the Communication Networks and Services Research Conference , [EEE Publi- 
cations ,2005 , pp. 48 — 53. 
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4.6 节 复 习题 


1. 最 流行 的 商业 数据 挖掘 工具 有 哪些 ? 

2. 为 什么 最 流行 的 工具 都 是 由 统计 公司 开发 的 ? 

3. 最 流行 的 免费 数据 挖掘 工具 有 哪些 ? 

4. 商业 数据 挖掘 软件 工具 和 免费 数据 挖掘 软件 工具 有 哪些 主要 区 别 ? 
5. 您 在 选择 数据 挖掘 工具 时 ， 考 虑 的 前 5 个 准则 是 什么 ? 请 解释 。 
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4.7 ”关于 数据 挖掘 的 一 些 说 言 和 谬误 

数据 挖掘 是 一 种 强大 的 分 析 工 具 ， 它 使 得 企业 经 理 能 够 通过 描述 过 去 属性 预测 未 来 。 数 据 
挖掘 帮助 市 场 营销 人 员 解 开 客户 行为 模式 之 谜 。 数 据 挖掘 的 结果 可 以 用 于 增加 收益 、 减 少 开 支 、 
识别 欺诈 和 发 现 商机 ， 从 而 为 获得 竞争 优势 开辟 了 新 领域 。 作 为 一 个 正在 发 展 和 成 熟 的 领域 ， 数 
据 挖掘 常 常 伴随 着 诸多 廖 误 说 法 ， 包 括 如 下 一 些 (Zaima, 2003): 

BR 实际 
数据 挖 所 提供 快速 的 类 似 占卜 预言 的 预测 | ”数据 挖掘 是 一 个 多 步骤 过 程 ， 需 要 精心 主动 的 设计 和 应 用 
数据 挖 据 对 商业 应 用 还 不 可 行 目前 数据 控 气 的 发 展 水 平 几乎 可 以 用 于 任何 业务 


数据 挖掘 需要 一 个 独立 的 专用 数据 库 由 于 数据 库 技术 的 发 展 ， 不 需要 专用 数据 库 ， 虽 然 有 时 有 一 个 专用 数据 
库 会 更 好 


新 的 基于 Web 的 工具 使 得 任何 教育 水 平 的 管理 者 都 可 以 进行 数据 挖掘 
只 要 数据 能 够 正确 反映 业务 或 客户 ， 企 业 就 可 以 应 用 数据 挖 据 

















只 有 高 学 历 的 人 才能 进行 数据 挖掘 
数据 挖掘 只 适用 于 客户 数据 很 多 的 大 公司 








具有 远见 齐 识 的 数据 挖掘 人 员 能 够 理解 这 些 廖 误 不 过 是 奇谈 怪 论 ， 因 此 他 们 获得 了 巨大 的 


竞争 优势 。 
以 下 是 实际 中 常 犯 的 10 大 错误 (Skalak ，2001; Shultz，2004) ， 应 当 尽力 避免 
1. 未 能 正确 定义 数据 挖掘 要 解决 的 问题 。 
2. 忽视 赞助 商 对 于 数据 挖掘 以 及 数据 挖掘 能 做 什么 ,不 能 做 什么 的 看 法 。 
3. 数据 准备 时 间 不 够 充分 。 数 据 准 备 工作 需要 的 时 间 比 一 般 理解 得 更 多 。 
4. 只 关注 汇总 结果 ， 忽 视 单个 记录 。IBM 的 DB2 IMS 能 够 突出 显示 感 兴趣 的 单个 记录 。 
5. 对 数据 挖掘 过 程 和 结果 的 跟踪 过 于 草率 。 
6. 忽视 发 现 结果 中 的 疑点 而 继续 进行 挖掘 过 程 。 
7. 盲目 反复 运行 数据 挖掘 算法 。 更 重要 的 是 ， 要 努力 思考 数据 分 析 下 一 步 要 做 什么 。 数 据 


挖掘 是 一 种 很 需要 亲自 实践 的 活动 。 
8. 轻信 被 告知 的 所 有 一 切 数据 信息 。 
9. 轻信 被 告知 的 关于 自己 进行 的 数据 挖掘 分 析 的 所 有 一 切 。 
10. 采用 和 赞助 商 不 同 的 方法 来 测量 结果 。 


4.7 节 复 习题 


L 关于 数据 挖 握 有 哪些 最 常见 的 雇 误 看 法 。 
2. 产生 这 些 数据 挖掘 错误 看 法 的 原因 是 什么 ? 
3. 有 哪些 数据 挖掘 错误 是 最 常见 的 ? 如 何 消 除 或 最 大 限度 地 避免 这 些 错 误 ? 


本 章 重点 


数据 挖掘 是 一 个 从 数据 库 中 发 现 新 知识 的 过 程 。 

数据 挖掘 采用 的 数据 源 可 以 是 简单 的 平面 文件 ， 也 可 以 是 数据 仓库 。 

数据 挖掘 有 很 多 其 他 名 称 和 定义 。 

数据 挖掘 是 很 多 学 科 的 交叉 ， 包 括 统计 学 、 人 工 智能 和 数学 建 模 。 

企业 使 用 数据 挖掘 加 强 对 客户 的 理解 ， 优 化 企业 运作 。 

在 企业 和 政府 几乎 所 有 领域 都 可 以 见 到 数据 挖掘 应 用 ， 包 括 健康 保健 、 金 融 、 营 销 和 国土 安全 。 
数据 挖掘 任务 可 以 分 为 3 大 类 : 预测 (分 类 或 回归 ) 、 聚 类 和 关联 。 

和 创建 其 他 信息 系统 类 似 ， 要 取得 成 功 ， 数 据 挖掘 项 目 必须 遵循 系统 的 项 目 管理 流程 。 
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。 已 经 提出 的 数据 挖 据 过 程 包括 : CRISP-DM、SEMMA 和 KDD 等 。 
e CRISP-DM 为 实施 数据 挖掘 项 目 提供 了 一 种 系统 的 顺序 方法 。 
© 数据 挖掘 项 目前 面 的 几 步 〈 即 理解 领域 和 相关 数据 ) 耗费 整个 项 目 时 间 的 绝 大 部 分 〈 常 占 总 时 间 
的 80% ) 。 
。 数据 预 处 理 对 于 成 功 进行 任何 数据 挖掘 研究 都 是 至 关 重 要 的 。 好 的 数据 会 产生 好 的 信息 ; 好 的 信息 
会 产生 好 的 决策 。 
。 数据 预 处 理 包括 4 个 主要 步 又 : 数据 整合 、 数 据 清洗 、 数 据 转换 和 数据 简化 。 
。 分 类 方法 通过 包括 输入 和 分 类 标签 结果 的 过 去 例子 学 习 , 一 旦 正确 训练 ， 就 能 够 对 未 来 的 实例 进行 
分 类 。 
。 聚 类 将 记录 划分 为 自然 分 组 。 各 分 组 内 部 成 员 特 征 类 似 。 
e 数据 挖掘 可 以 是 假设 驱动 或 发 现 驱动 的 。 假 设 驱 动 的 数据 挖掘 开始 于 用 户 的 提议 。 发 现 驱 动 的 数据 
挖掘 结果 则 更 开放 。 
。 有 很 多 不 同 算法 被 广泛 应 用 于 分 类 。 商 业 实现 算法 包括 ID3、C4.5、C5、CART 和 SPRINT, 
。 决策 树 通 过 按 不 同属 性 划分 数据 ， 每 一 叶子 结 点 具有 同一 类 别 的 所 有 模式 。 
。 基尼 系数 和 信息 增益 (M) 是 确定 决策 树 分 支 选 择 的 两 种 常用 方法 。 
。 基尼 系数 度量 样本 的 纯度 。 若 某 样 本 中 所 有 样 例 都 属于 同一 类 别 ， 那 么 其 基尼 系数 值 为 0。 
。 用 于 度量 分 类 模型 预测 精度 的 评估 技术 有 多 种 ， 包 括 简单 拆 分 、 太 折 交 叉 确 认 、 拔 靴 复 制 法 和 ROC 
曲线 下 面积 。 
© 当 数 据 记录 不 存在 预定 义 的 类 别 标 识 符 〈 即 未 知 某 一 特定 记录 属于 哪 一 个 类 别 ) 时 ， 使 用 聚 类 
算法 。 
© 聚 类 算法 计算 类 似 度 ， 从 而 对 类 似 实例 进行 聚 类 。 
。 RASH PR AMA RE 
。 最 常用 的 聚 类 算法 是 所 均值 和 自 组 织 映射 。 
。 关联 规则 挖掘 用 于 发 现 总 在 一 起 的 两 个 或 多 个 项 目 〈 或 事件 、 概 念 ) 。 
© 关联 规则 挖掘 常 常 被 当做 购物 篮 分 析 。 
。 最 常用 的 关联 规则 挖掘 算法 是 Aprior ， 该 算法 通过 自 底 向 上 的 方法 识别 频繁 项 集 。 
© 基于 其 支持 度 和 置信 度 ， 对 关联 规则 进行 评估 。 
。 有 很 多 商业 的 和 免费 的 数据 挖掘 工具 。 
。 最 常用 的 商业 数据 挖 所 工具 是 SPSS PASW 和 SAS Enterprise Miner, 
。 最 常用 的 免费 数据 挖掘 工具 是 Weka 和 RapidMiner。 
关键 术语 
adaptive resonance theory 自 适 应 共振 理论 classification 分 类 
algorithm 算法 clustering RÆ 
Apriori algorithm Apriori 算法 confidence 置信 和 度 
area under the ROC curve ROC 曲线 下 面积 connection weight 连接 权 值 
Artificial Neural Network (ANN， 人 工 神 经 网 络 ) CRISP- DM 跨行 业 数据 挖掘 标准 过 程 
associations 关联 data mining 数据 挖掘 
axons #438 decision trees 决策 树 
backpropagation 反 向 传播 dendrites 树 突 
bootstrapping HL discovery-driven data mining ian 
business analyst 业务 分 析 师 distance measure 距离 测度 
categorical data 分 类 数据 entropy ‘ij 


chromosome 染色 体 fuzzy logic 模糊 逻辑 


genetic algorithm 遗传 算法 

Gini index 基尼 系数 

heuristics 启发 式 

hidden layer 隐 含 层 

hypothesis- driven data mining 假设 驱动 数据 挖掘 
information gain 信息 增益 

interval data 区 间 数 据 

k-fold cross validation 磊 折 交叉 确认 

Knowledge Discovery in Databases (KDD， 数 据 库 知 
识 发 现 ) 

Kohonen’ s self-organizing feature map Kohonen 自 组 织 
特征 映射 

learning algorithm 学 习 算 法 

link analysis 链接 分 析 

machine learning 机 器 学 习 

Microsoft Enterprise Consortium Microsoft 企业 联盟 
Multi- Layered Perceptron (MLP， 多 层 感知 器 ) 
neural computing 神经 计算 

neural network 神经 网 络 
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pattern recognition 模式 识别 

prediction 预测 

Processing Elements (PE, 处 理 单元 ) 
Rapidminer 快速 挖掘 

ratio data 比率 数据 

regression 回归 

result (outcome) variable 结果 变量 

SAS Enterprise Miner SAS 企业 版 挖掘 工具 
SEMMA 抽样 、 探 索 、 修 正 、 建 模 、 分 析 
sensitivity analysis 灵敏 度 分 析 

sequence mining 序列 挖掘 

sigmoid function S 型 函数 

simple split 简单 拆 分 

SPSS PASW Modeler SPSS 预测 分 析 软 件 建 模 
summation function 求 和 函数 

supervised learning 监督 学 习 

support 支持 度 

Support Vector Machines (SVM， 支 持 向 量 机 ) 
synapse R fik 


Waikato Environment for Knowledge Analysis ( Weka, 


neurons 神经 元 transformation function 转换 函数 
nominal data 名 称 数据 unsupervised learning 无 监督 学 习 
numeric data 数值 数据 

ordinal data 序数 数据 怀 卡 托 智能 分 析 环 境 ) 
讨论 题 

1. 给 出 数据 挖掘 的 定义 。 为 什么 数据 挖掘 有 很 多 名 称 和 定义 ? 

2. 近来 数据 挖掘 广 泛 应 用 的 原因 有 哪些 ? 

3. 讨论 : 组 织 在 决策 购买 数据 挖掘 软件 之 前 ， 应 该 考虑 哪些 问题 ? 

4. 如 何 区 别 数据 挖掘 和 其 他 分 析 工 具 技术 ? 

5. 讨论 主要 的 数据 控 气 方法。 这些 方法 之 间 存 在 哪些 根本 差别 ? 

6. 数据 挖掘 主要 有 哪些 应 用 领域 ? 讨论 这 些 领 域 的 共同 点 。 

7. 为 什么 需要 标准 化 的 数据 挖掘 流程 ”应 用 最 广泛 的 数据 挖掘 流程 有 哪些 ? 

8. 讨论 两 个 应 用 最 广泛 的 数据 挖 气流 程 之 间 的 差别 。 

9. 数据 挖掘 流程 仅仅 是 活动 的 顺序 集合 吗 ? 


10. 为 什么 需要 数据 预 处 理 ? 数据 预 处 理 的 主要 任务 和 相关 技术 有 哪些 ? 


Ll. 讨论 分 类 模型 评估 背后 的 道理 。 


12. 分 类 和 聚 类 的 主要 区 别 是 什么 ?用 具体 例子 说 明 。 


13. 抛 开 本 章 讨论 的 内 容 ， 还 有 哪些 地 方 可 以 使 用 关联 规则 挖掘? 
14. 组 织 在 进行 数据 挖掘 软件 购买 决策 前 ， 应 考虑 哪些 问题 ? 
15. 什么 是 人 工 神经 网 络 ANN? 试 比较 生物 神经 网 络 和 人 工 神 经 网 络 。 


练习 
Teradata 大 学 和 其 他 动手 练习 


1. 访问 teradatastudentnetwork. com ， 找 出 关于 数据 挖掘 的 案例 ， 并 描述 该 领域 的 最 新 进展 。 
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2. 转 到 teradatastudentnetwork. com 或 老师 给 出 的 URL。 找 到 数据 挖掘 相关 网 络 课程 。 特 别 地 ， 观 看 由 


C. Imhoff FI T. Zouqes 给 出 的 网 络 课程 。 然 后 回答 下 列 问题 ; 
a. 数据 挖掘 有 哪些 有 趣 的 应 用 ? 
b. 组 织 开 始 一 项 数据 挖掘 项 目 会 有 哪些 类 型 的 收益 和 支出 ? 


. 本 练习 的 目标 是 建立 一 个 能 够 识别 输入 〈 预 测 变量 ) ， 从 而 区 分 高 风险 客户 和 一 般 客 户 的 模型 〈 基 于 过 


往 的 客户 模式 ) ， 然 后 使 用 这 些 输入 预测 新 的 高 风险 客户 。 该 样 例 在 本 领域 是 很 典型 的 。 

练习 用 到 的 样本 数据 可 以 从 在 线 文件 CreditRisk xlsx 的 W4. 1 中 找到 。 该 数据 集 包 括 425 个 实例 、 过 往 
的 15 个 变量 和 出 于 各 种 原因 从 银行 贷款 的 当前 客户 。 数 据 集 包含 客户 相关 信息 ， 例 如 财务 状况 、 贷 款 
理由 、 职 业 、 人 口 统计 信息 和 作为 输出 结果 的 因 变 量 一 一 信用 状况 ， 基 于 机 构 过 去 的 经 验 ， 将 每 个 实例 
按 好 坏 分 类 。 

取 400 个 实例 作为 训练 实例 ， 其 余 25 个 实例 留 出 来 用 于 测试 。 建 立 学 习 问 题 特征 的 决策 树 ， 然 后 在 其 余 
25 个 实例 上 测试 模型 性 能 ， 并 给 出 模型 学 习 和 测试 性 能 报告 。 起 草 一 份 报告 ， 对 决策 树 模 型 、 训 练 参 数 
和 测试 集 性 能 结果 进行 识别 。 可 以 使 用 任意 决策 树 软 件 。 

(本 练习 经 Statsoft 公司 准许 ， 基 于 来 自 ftp. ics. uci. edu/pub/machine- learning- databases/statlog/ ger- 
man 的 数据 集 ， 以 CreditRisk 重 命 名 并 进行 了 改动 。) 





4. 在 本 练习 中 ， 您 需要 复制 本 章 开篇 场景 中 说 明 的 票房 预测 模型 。 下 载 在 线 文件 MovieTrain. xlsx， 在 


W4.2 中 可 以 找到 训练 数据 集 。 它 包括 184 条 记录 ， 格 式 是 Microsoft Excel 文件 。 使 用 开篇 场景 中 给 出 的 
数据 描述 理解 该 领域 及 所 要 解决 的 问题 。 仔 细 选 择 自 变量 ， 并 建立 至 少 3 种 分 类 模型 (例如 ， 决 策 树 、 
逻辑 回归 和 神经 网 络 ) 。 使 用 10 折 交 叉 确认 和 百分比 分 割 技 术 对 结果 精确 度 进行 比较 。 其 中 要 用 到 混淆 
和 矩阵， 并 对 结果 进行 评述 。 在 测试 集 上 对 建立 的 模型 进行 测试 ( 详 见 在 线 文 件 W4.3，MovieTest. xlsx, 
包含 29 个 记录 ) 。 应 用 不 同 模型 对 结果 进行 分 析 ， 指 出 哪个 分 类 模型 是 最 好 的 ， 并 给 出 支持 该 结论 的 分 
析 结 果 。 


小 组 作业 和 角色 扮演 


1. 





调查 新 的 数据 获取 工具 ， 例 如 无 线 射频 识别 (Radio Frequency Identification, RFID) 标签 是 如 何 帮助 组 
织 精确 识别 客户 和 对 客户 进行 分 类 的 ， 以 进行 精准 营销 的 。 很 多 这 种 应 用 都 牵涉 到 数据 挖掘。 浏览 文献 
及 Web 网 页 ， 然 后 提出 5 种 新 的 潜在 RFID 技术 数据 挖掘 应 用 。 如 果 国 家 法 律 要 求 在 每 个 人 体内 都 植 人 
这 种 标签 ， 以 建立 国家 身份 识别 系统 ， 将 会 出 现 哪些 问题 ? 


. 采访 你 所 在 大 学 的 管理 人 员 或 您 所 在 组 织 的 主管 ， 了 解数 据 仓库 、 数 据 挖掘 、 在 线 分 析 处 理 和 可 视 化 


BIDSS 工具 是 如 何 帮助 管理 的 。 撰 写 报告 ， 描 述 你 发 现 结果 ， 并 给 出 成 本 估算 和 效益 分 析 。 


. 在 网 址 ics. uci. edu/ ~ mlearn/MLRepository. html 有 一 个 非常 好 的 数据 资源 库 ， 已 被 用 于 测试 很 多 机 器 


学 习 算 法 的 性 能 。 有 些 数据 集 是 为 了 测试 当前 机 器 学 习 算法 的 局 限 性 ， 并 与 新 的 学 习 算 法 进行 性 能 比 
较 。 不 管 怎样 ， 可 以 使 用 其 中 的 一 些小 数据 集 研究 任意 一 个 数据 挖掘 软件 或 本 书 配套 软件 (例如 Statisti- 
ca DataMiner) 的 功能 。 从 该 数据 资源 库 中 下 载 至 少 一 个 数据 集 (例如 信贷 审查 数据 库 或 住房 数据 库 ) ， 
酌情 使 用 决策 树 算法 或 聚 类 算法 。 基 于 你 的 结果 编写 一 份 报告 。( 其 中 的 一 些 练习 甚至 可 以 作为 一 学 期 
的 项 目 ， 用 于 撰写 学 期 论文 。) 


. 考虑 以 下 数据 集 ， 其 中 包括 3 个 属性 和 MBA 项 目录 取 结 果 分 类 : 


GMAT 数量 成 绩 GMAT 数量 成 绩 
(百分数 ) (百分数 ) 
45 
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a 使 用 显示 的 数据 ， 手 工 建立 你 自己 的 专家 决策 制定 规则 。 
b. 使 用 基尼 系数 建立 决策 树 。 可 以 使 用 手工 计算 或 电子 表格 进行 基本 运算 。 
c. 使 用 自动 决策 树 软 件 程序 为 同 组 数据 建立 决策 树 。 


. 本 练习 的 目的 是 建立 模型 ， 使 用 多 个 地 图 度量 指标 预测 森林 植被 类 型 。 给 定数 据 集 (在线 文 件 W4. 1) 


包括 北 科 罗拉 多 罗斯 福 国 家 森林 公园 的 4 个 荒野 地 区 数据 。 总 共 12 个 地 图 度量 指标 被 用 作 自 变量 ; 7 种 
主要 类 型 的 森林 植被 被 用 作 因 变 量 。 下 面 的 表格 对 这 些 自 变量 和 因 变 量 进行 了 简略 描述 。 

这 是 一 个 极 好 的 多 类 分 类 问题 例子 。 数 据 集 相当 大 (有 581 012 个 不 同 实例 ) ， 并 且 功 能 丰富 。 建 模 者 可 
以 采取 必要 的 决策 进行 数据 预 处 理 ， 并 找到 最 有 可 能 的 预测 因素 。 使 用 你 最 喜欢 的 工具 建立 模型 ， 并 以 
书面 报告 形式 记录 过 程 细 节 和 你 的 经 验 。 在 报告 中 使 用 屏幕 截图 阐释 重要 的 有 趣 发 现 。 讨 论 并 解释 您 在 
此 过 程 中 所 做 出 的 决策 。 















































名 称 描述 

序号 自 变量 

1 海拔 海拔 (Æ) 

2 方位 方位 角度 方向 

3 坡度 斜坡 度 

4 水 文 水 平 距 离 地 表 水 最 近 水 平 距离 

5 AXE HBS HEKEL BB BS 

6 公路 水 平 距 离 公路 最 近 水 平 距离 

7 坡 面 阴影 (上午 9 点 ) 夏至 日 上 午 9 点 坡 面 阴影 指数 
8 坡 面 阴影 (正午 ) 夏至 日 正午 坡 面 阴 影 指 数 

9 坡 面 阴影 (下午 3 点) 夏至 日 下 午 3 点 坡 面 阴影 指数 
10 着 火 点 水 平 距 离 最 近 野 火 着 火 点 水 平 距 离 

11 荒野 保护 区 (4 个 二 元 变量 ) 荒野 保护 区 标记 

12 土壤 类 型 (40 个 二 元 变量 ) 土壤 类 型 标记 
序号 因 变 量 

1 植被 类 型 (7 种 不 同类 型 ) 植被 类 型 标记 


* 数据 集 更 多 细节 (变量 和 观察 值 ) 可 从 在 线 文件 中 找到 。 
重复 使 用 该 数据 集 不 受 限制 ， 只 需 保留 Jock A. Blackard 和 科罗拉多 州立 大 学 的 版 权 声 明 。 


网 络 练习 


1. 


Oo O N A U 


访问 cs. ualberta. ca/ ~ aixplore/ 的 人 工 智 能 探索 博物 馆 。 点 击 “Decision Tree” (决策 树 ) 链接 。 阅 读 
篮球 赛 统 计 资 料 描 述 ， 仔 细 观 察 数据 并 建立 决策 树 。 给 出 你 对 决策 树 精确 度 的 印象 报告 。 同 时 ， 研 究 不 
同 算法 的 效果 。 


. 从 fairisaac. com 和 egain. com 开始 ， 调 查 一 些 数据 挖掘 工具 和 供应 商 。 查 阅 dmreview. com ， 找 出 一 些 


本 章 未 提 及 的 数据 挖掘 产品 和 服务 供应 商 。 


. 找 出 最 近 的 一 些 数据 挖掘 成 功 应 用 案例 。 访 问 几 个 数据 挖 据 供 应 商 Web 站 点 ， 查 找 成 功 案例 。 撰 写 报 


告 ， 总 结 5 个 新 的 案例 研究 。 


. 访问 供应 商 Web 站 点 〈 特 别 是 SAS、SPSS、Cognos Teradata, Statsoft 和 Fair Isaac) ， 查 找 BI ( OLAP 和 


数据 挖掘 ) 工具 的 成 功 应 用 案例 。 这 些 不 同 成 功 案例 间 有 什么 共同 点 ? 有 什么 区 别 ? 


. 登录 statsoft com。 下 载 至 少 3 份 应 用 白皮书 。 哪 些 应 用 采用 了 本 章 讨论 过 的 数据 /文本 /Web 挖掘 技术 ? 
. 登录 sas. com。 下 载 至 少 3 份 应 用 和 白皮书。 哪些 应 用 采用 了 本 章 讨论 过 的 数据 /文本 /Web 挖掘 技术 ? 

. 登录 Spss. com。 下 载 至 少 3 份 应 用 白皮书 。 哪 些 应 用 采用 了 本 章 讨论 过 的 数据 /文本 /Web 挖掘 技术 ? 

. 登录 nd com。 下 载 至 少 3 份 神经 网 络 客户 成 功 应 用 研究 案例 。 这 些 不 同 的 成 功 案例 有 何 共同 点 ? 有 何 差别 ? 
. 登录 teradata. com。 下 载 至 少 3 份 应 用 白皮书 。 哪 些 应 用 采用 了 本 章 讨论 过 的 数据 /文本 /Web HH 
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技术 ? 

10. 登录 fairisasc. com。 下 载 至 少 3 份 应 用 和 白皮书。 哪些 应 用 采用 了 本 章 讨论 过 的 数据 /文本 /Web 挖掘 
技术 ? 

11. 登录 salfordsystems. com。 下 载 至 少 3 份 应 用 白皮书 。 哪 些 应 用 采用 了 本 章 讨论 过 的 数据 /文本 /Web 
挖掘 技术 ? 

12. 登录 rulequest com。 下 载 至 少 3 份 应 用 白皮书 。 哪 些 应 用 采用 了 本 章 讨论 过 的 数据 /文本 /Web 挖掘 
技术 ? 

13. 登录 kdnuggets. com。 探 索 关 于 应 用 和 软件 的 章节 。 找 到 至 少 3 种 数据 挖掘 和 文本 挖掘 的 额外 软件 包 。 


本 章 结尾 应 用 案例 

数据 挖掘 帮助 通信 公司 为 客户 定制 产品 组 合 

背景 

argonauten 360° 咨 询 集团 帮助 企业 建立 并 完善 成 功 的 客户 关系 管理 战略 。 该 公司 采用 关联 营销 促进 和 相 
关 客 户 的 对 话 ， 从 而 创造 价值 。BMW 、Allianz、Deutsche 银行 、Gerling 和 Coca - Cola 等 很 多 其 他 企业 都 是 
该 咨询 集团 的 客户 。 

问题 

作为 电信 等 行业 领先 的 咨询 公司 ，argonauten 360° 日 常 工作 的 一 个 常规 部 分 就 是 应 用 先进 有 效 的 分 析 技 
术 进 行 客户 评分 、 育 类 和 客户 终身 价值 计算 。 由 于 每 个 项 目 都 会 提出 一 组 新 的 特定 的 情况 、 数 据 情景 、 障 
碍 和 分 析 挑 战 ， 所 以 要 求 分 析 工 具 既 灵活 又 强大 是 一 种 苛求 。 因 此 ， 需 要 由 尖端 有 效 而 灵活 的 数据 挖掘 功 
能 增强 现 有 工具 集 。 另 一 个 重要 的 考虑 因素 是 希望 解决 方案 能 够 快速 产生 投资 回报 。 方 案 必 须 易 于 应 用 ， 
具有 快速 的 学 习 曲 线 ， 以 使 分 析 师 能 快速 掌握 即使 是 最 先进 的 分 析 过 程 。 

解决 方案 

公司 需要 一 组 统一 的 、 易 于 使 用 的 分 析 工 具 集 ， 具 备 大 范围 的 建 模 功能 和 简单 的 配置 选项 。 不 同 的 建 
模 任务 需要 学 习 不 同 的 工具 ， 这 会 严重 阻碍 咨询 的 效率 和 效果 。 因 此 ， 该 公司 偏向 统一 的 解决 方案 环境 ， 
功能 范围 从 对 任意 媒介 〈 例 如 ， 数 据 库 、 在 线 数据 资源 库 、 文 本 文件 和 XML 文件 ) 的 数据 访问 ， 到 在 大 
范围 BI 系统 中 部 署 复杂 数据 挖掘 解决 方案 。 

经 过 12 个 月 的 大 量 数据 挖 据 工具 评估 ， 该 公司 选择 了 Statistica Data Miner ( 由 StatSoft 公司 提供 ) 。 据 
该 公司 行政 主管 说 ， 这 是 因为 这 种 工具 提供 了 理想 的 功能 组 合 ， 能 够 满足 几乎 所 有 分 析 师 的 需求 ， 而 且 用 
户 界面 友好 。 

一 个 创新 项 目 例子 

在 欧洲 ， 所 谓 的 “预付 费 电话 ”服务 在 手机 和 普通 电话 用 户 中 非常 流行 。 这 种 规划 方案 对 基本 服务 不 
收费 或 收费 很 低 ， 主 要 按照 实际 通话 时 长 收费 。 这 种 业务 很 具 竞 争 力 ， 预 付费 通信 服务 供应 商 在 很 大 程度 
上 依赖 其 每 分 钟 通话 费 率 的 吸引 力 。 这 些 费 率 排名 被 广泛 刊登 ,关键 在 于 要 在 费 率 按 最 低 排名 居 前 5 位 的 
同时 ， 获 得 最 高 的 利润 。 由 于 这 种 形势 造成 的 竞争 环境 ， 大 众 普遍 认为 “在 这 个 市 场 上 实际 上 不 存在 价格 
弹性 〈 供 应 商 能 够 获得 哪怕 是 最 少 的 附加 收益 而 不 流失 客户 ) ; 即使 存在 这 种 价格 弹性 ， 也 肯定 不 能 预 
测 。” 然 而 ，argonauten 360° 的 咨询 顾问 使 用 Statistca 数据 挖掘 工具 对 现 有 数据 的 分 析 证 实 : 这 种 普遍 看 法 
是 错误 的 ! 事实 上 ， 他 们 的 成 功 分 析 为 argonauten 360" 赢 得 了 预付 费 服 务 业务 的 供应 商 领先 地 位 。 

分 析 

分 析 行 为 基于 每 分 每 秒 电话 流量 的 描述 数据 。 具 体 来 说 ， 分 析 针 对 一 年 中 的 通话 分 钟 销售 。 为 了 获得 
最 好 的 分 辨 效果 ， 建 立 了 20 种 不 同 种 类 的 评估 模型 组 合 。 每 个 模型 使 用 一 种 回归 类 型 的 数学 表达 函数 来 预 
测 长 期 趋势 ， 然 后 在 更 高 层次 的 元 模型 中 结合 个 别 模型 。 所 有 的 具体 通话 时 间 段 都 被 仔细 分 析 ， 识 别 出 各 
时 间 段 的 价格 敏感 度 和 竞争 压力 。 

2 个 月 后 的 结果 l 

在 将 数据 挖掘 所 得 模型 投入 应 用 以 前 ， 启 发 式 “ 专 家 观点 ”首先 被 用 来 预测 后 续 2 个 月 的 通话 时 长 。 
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使 用 Statistica Data Miner， 这 些 预 测 的 精确 度 得 到 了 显著 改善 ， 同 时 错误 率 下 降 了 一 半 。 由 于 分 钟 通话 流量 
(HK) 数量 非常 巨大 ， 这 清楚 地 证 明了 先进 分 析 策 略 在 解决 这 种 类 型 问题 时 的 效果 和 潜在 好 处 。 


在 客户 站 点 实施 解决 方案 


目前 ， 预 付费 服务 供应 商 正在 使 用 这 种 方案 对 最 佳 的 通话 费 率 进 行 预测 和 模拟 。 该 系统 被 argonauten 
360。 公 司 配置 成 为 一 个 完全 的 交 钥 匙 〈 只 需 按 一 下 按钮 ) 方案 。 使 用 这 种 方案 ， 预 付费 服务 提供 商 能 够 以 
高 得 多 的 精确 度 来 预测 价格 高 度 敏 感 的 市 场 需求 ， 给 出 “正确 的 ” 费 率 ， 从 而 获得 关键 竞争 优势 。 

在 下 一 阶段 ， 一 种 类 似 仪 表盘 的 系统 将 进一步 完善 该 系统 ， 使 其 能 够 自动 比较 预测 结果 和 观测 数据 。 
argonauten 360° 保 证 该 系统 在 必要 时 能 够 更 新 模型 参数 估算 ， 以 适应 市 场 变化 。 这 样 ， 预 付费 服务 供应 商 不 
需要 任何 分 析 技 能 ， 就 能 够 实现 可 靠 的 复杂 需求 预测 和 费 率 模拟 系统 ， 这 在 以 往 被 认为 是 不 可 能 的 。 这 是 
应 用 数据 挖掘 技术 ， 在 高 度 竞争 商业 环境 中 获得 竞争 优势 的 一 个 很 好 的 典范 。 


本 章 结尾 应 用 案例 的 问题 


1. 为 什么 咨询 公司 更 有 可 能 使 用 数据 挖掘 工具 和 技术 ? 他 们 的 具体 价值 诉求 是 什么 ? 

2. 为 什么 对 argonauten 360° 公 司 来 说 ， 选 用 一 种 具备 所 有 建 模 功能 的 综合 工具 非常 重要 ? 

3. argonauten 360° 公 司 帮 助 预付 费 服务 供应 商 解 决 了 什么 问题 ? 

4. 你 还 能 想 出 其 他 数据 挖掘 可 以 解决 的 电信 企业 问题 吗 ? 

来 源 : StatSoft , “The German Consulting Company argonauten 360° Uses Statistica Data Miner to Develop Effective Product Port- 
folios Custom- Tailored to Their Customers,” statsoft. com/company/success _ stories/pdf/argonauten360. pdf 


(accessed on May 25, 2009) . 
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学 习 目 标 

E 介绍 文本 挖掘 并 理解 文本 挖掘 的 应 用 

E 区 分 文本 挖掘 和 数据 挖掘 的 差别 

E 理解 文本 挖掘 的 不 同 应 用 领域 

E 了 解 文本 挖掘 实现 的 过 程 

E 理解 描述 文本 型 数据 结构 的 不 同方 法 

图 介绍 Web 挖掘 的 含义 、 目 的 和 优势 

E 理解 Web 挖掘 的 3 个 不 同 的 分 支 

m 理解 Web AAI. Web 结构 挖掘 和 Web 日 志 控 掘 


本 章 综合 性 地 描述 了 与 商务 智能 和 决策 支持 系统 有 关 的 文本 挖掘 和 Web 挖掘 的 概念 。Web 
控 气 和 文本 挖掘 本 质 上 都 是 数据 挖掘 的 派生 词 。 因 为 文本 数据 和 网 络 流量 数据 在 同一 量 级 的 容 
量 上 比 数据 库 中 结构 化 的 数据 增加 的 速度 要 快 ， 所 以 了 解 一 些 用 于 处 理 海量 非 结构 化 数据 的 技 
术 非 常 重要 。 


开篇 场景 : 文本 挖 握 与 安全 和 反 有 枣 

假设 你 是 美国 大 使 馆 里 解救 人 质 的 一 个 决策 者 ， 你 正 设法 查 清 “ 谁 是 铠 怖 分 子 的 首领 ”， 
“本 次 铠 怖 袭击 背后 的 阴谋 是 什么 ”以 及 “这 个 组 织 是 否 有 可 能 袭击 其 他 的 大 使 馆 ?。 尽 管 你 有 
获得 大 量 信息 的 渠道 , 但 是 在 这 种 情形 下 你 很 难 有 效 利用 如 此 大 量 的 信息 并 做 出 更 好 的 决策 。 
在 这 个 取决 于 准确 性 和 实时 智能 的 危急 关头 ， 计 算 机 怎么 发 挥 作用 呢 ? 美国 国防 部 高 级 研究 计 
RÆ (Defense Advanced Research Project Agency, DARPA) 整体 情报 识别 项 目的 一 个 子 课 题 一 一 
Genoa9 ， 利 用 先进 工具 和 技术 快速 分 析 与 当时 情形 相近 的 信息 ， 从 而 支持 更 好 的 决策 。 尤 其 是 ， 
Genoa 提供 了 知识 发 现 工具 ， 用 于 从 相关 信息 资源 中 进行 更 好 的 “挖掘 ”， 从 而 发 现 可 做 出 响应 
的 信息 模式 (例如 ， 相 关 知 识 领域 ) 。 

Genoa 所 面临 的 一 个 挑战 是 使 最 终 用 户 容易 地 利用 从 分 析 工 具 中 发 现 的 知识 ， 并 将 它 以 简明 
有 用 的 形式 骨 入 智能 产品 中 。 一 个 为 公众 利益 服务 的 非 盈利 创新 研究 组 织 MITER (mitre. org), 
被 委任 从 事 开发 文本 挖掘 的 基础 软件 系统 来 迎接 这 个 挑战 。 这 个 系统 允许 用 户 选 择 各 种 文本 挖 
掘 工具 ， 并 且 使 得 用 户 在 点 击 几 下 鼠标 的 情况 下 ， 就 可 以 创建 一 个 复杂 的 过 滤器 ， 该 过 滤器 能 够 
实现 任何 所 需 的 知识 发 现 功能 。 过 滤器 用 于 输入 信息 并 将 其 转换 为 更 简要 更 有 用 的 形式 。 过 滤 
器 也 可 以 清除 信息 里 与 自己 研究 的 内 容 不 相关 的 部 分 。 

例如 ， 在 前 面 所 讨论 的 危机 情形 下 ， 分 析 家 可 以 利用 文本 挖掘 工具 从 搜集 到 的 大 量 新 闻 资 
源 中 挖掘 重要 的 信息 块 。 文 本 挖掘 工具 的 这 种 应 用 可 以 理解 为 查看 TopCat，TopCat 是 MITRE F 
发 的 一 个 系统 ， 能 够 识别 一 些 文件 内 容 的 不 同 主题 ， 并 且 为 每 个 话题 找 出 核心 词 。TopCat 利用 
规则 挖掘 技术 来 识别 人 、 组 织 、 位 置 和 事件 之 间 的 关系 (在 图 5-1 中 分 别 叫 做 P、0、L 和 下) 。 





© Genoa 课题 起 始 于 1997 年 ，2003 年 转变 为 GenoaI ， 所 属 的 整体 情报 识别 项 目 2003 年 更 名 为 Topsail ， 两 个 项 目 
都 因为 是 政府 主导 的 侵犯 个 人 隐私 和 人 权 的 间谍 案 而 遭 到 非议 。 
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通过 创建 “话题 徐 ” 将 这 些 关系 分 组 ， 就 像 图 5-1 中 分 为 三 组 ， 它 们 是 将 6 个 月 的 全 球 新 闻 分 
类 ， 共 包含 了 印刷 品 、 广 播 、 视 频 等 60 000 多 条 新 闻 事件 。 


























图 5-1 从 60 000 个 新 闻 事 件 提取 出 的 不 同 主题 组 


来 源 : Mitre Corporation, www. mitre. org (accessed May 20, 2009) . 


这 个 工具 可 以 帮助 分 析 家 发 现 知识 ， 例 如 ， 分 析 慌 怖 事件 中 恐怖 分 子 之 间 的 联系 ， 就 像 
“McVeigh 和 Nichols 是 同一 个 组 织 的 "， 从 而 可 以 进行 更 深入 的 分 析 。 反 过 来 ， 这 个 工具 还 可 以 
起 到 发 现 新 知识 的 作用 ， 形 成 分 析 模 型 ， 来 预测 一 个 特别 的 铠 怖 分 子 组 织 是 否 有 可 能 在 未 来 的 
儿 天 袭击 其 他 地 方 。 同 样 的 ,第 三 组 话题 可 以 揭示 束 埔 寨 选举 中 的 重要 人 物 ， 所 发 现 的 这 个 信息 
可 以 帮助 预测 柬埔寨 的 情况 是 否 会 引发 危机 从 而 对 美国 人 在 当地 的 利益 产生 潜在 影响 。 

假设 用 户 想 在 上 段 提 到 的 第 3 个 话题 (柬埔寨 选举 ) 中 更 多 地 了 解 这 些 重要 人 物 ， 分 析 家 
就 利用 一 个 主题 探测 过 滤器 和 人 物 传记 摘要 过 滤器 (就 像 TopCat 中 识别 人 的 关系 ) ， 从 各 种 相关 
主题 中 搜集 到 重要 人 物 的 行为 ， 而 不 是 通过 阅读 各 种 相关 主题 的 成 千 上 万 的 文字 来 搜集 信息 。 
这 个 组 合 的 结果 将 产生 一 个 短 的 主题 点 睛 总 结 。 

摘要 过 滤器 是 由 DARPA 基金 支持 开发 的 ， 它 利用 有 效 的 语法 分 析 、 使 用 同义词 典 和 一 些 简 
单 的 自然 语言 处 理 技术 ， 从 大 量 文件 中 对 人 的 描述 进行 分 类 和 聚合 。 它 还 可 以 根据 现 有 人 名 、 住 
址 和 文件 中 一 些 类 似 的 条 件 ， 比 如 出 现 的 频率 及 与 其 他 条 件 之 间 的 关系 ， 从 一 些 资料 中 提取 出 
和 这 些 人 相关 的 重要 语句 。 

TopCat 中 的 摘要 过 滤器 还 具有 和 MITRE 新 闻 广播 导航 器 相 类 似 的 功能 ， 利 用 这 个 功能 可 以 
连续 不 断 地 从 新 闻 中 获取 信息 ， 提 取 命名 实体 和 关键 词 ， 并 识别 它们 中 有 趣 的 改写 本 和 句子 。 摘 
要 过 滤器 具有 详细 说 明 目 标 长 度 和 下 降 率 的 参数 ， 这 样 就 可 以 将 信息 概括 为 不 同 长 度 的 摘要 。 
例如 ， 长 的 摘要 有 可 能 包含 其 他 人 物 (如 Pd Pot) 的 信息 。 

这 个 例子 说 明了 如 何 利 用 现在 的 知识 挖掘 工具 进行 文本 挖掘 ， 如 TopCat 摘要 过 滤器 可 以 发 
现 不 同 层次 信息 之 间 的 重要 联系 。 实 施 TopCat 中 使 用 的 组 件 开 发 方法 可 以 很 容易 地 将 这 些 过 滤 
器 集成 为 智能 产品 ， 例 如 自动 形成 智能 报表 、 简 报 和 仪表 盘 。 这 些 摘 要 过 滤器 可 以 链接 到 简报 网 
页 上 的 一 个 特定 部 分 ， 这 些 网 页 可 以 被 相互 合作 的 分 析 家 分 享 。 当 一 个 文件 或 者 一 个 文件 夹 被 
某 个 特定 部 分 的 过 滤器 发 现 ， 这 个 过 滤器 处 理 文件 中 的 文本 型 数据 ， 在 该 特定 区 域 出 现 文字 概 
要 或 者 以 可 视 化 的 图 像 展现 的 信息 。 


开篇 场景 的 问题 


1. 在 危机 情况 下 如 何 利用 文本 挖掘 技术 ? 

2. 什么 是 Genoa 项 目 ? Genoa 项 目 背后 的 动机 是 什么 ? 
3. 什么 是 TopCat? TopCat 做 什么 ? 

4. 什么 是 摘要 过 滤器 ? 





第 5 章 ， 文 本 挖 据 与 Web 挖 所 - 149 


5. PRE RAR ARR ATS HHT A 

我 们 从 开篇 场景 中 能 学 到 什么 

近 十 几 年 ， 文 本 挖掘 工具 已 经 成 为 国家 智能 措施 的 一 部 分 ， 如 几 十 年 来 的 整体 情报 意识 项 
目 。 在 开篇 场景 中 ，DARPA 和 MITRE 相互 合作 来 开发 自动 化 过 滤器 ， 并 使 文本 型 的 信息 资源 及 
时 转化 为 可 付 诸 行动 的 信息 。 利 用 基于 组 件 的 架构 ， 使 这 个 复杂 系统 中 的 部 分 结构 在 独立 于 其 
他 部 件 的 情况 下 得 以 修改 、 使 用 和 重用 。 通 过 联系 、 归 类 、 聚 集 分 析 这 些 基于 文本 的 文件 分 析 工 
R, 展现 了 从 大 量 新 闻 中 获取 知识 的 力量 。 智 能 领域 所 获取 的 成 就 标志 着 在 不 久 的 将 来 知识 发 
现 工具 和 技术 的 发 展 潜力 。 


来 源 : MITRE Corporation , mitre. org( accessed on May 20,2009) ; J. Mena, Investigative Data Mining for Security and Criminal 
Detection , Elsevier Science. Burlington ,MA ,2003. 


5. 1 文本 挖掘 的 概念 和 定义 

我 们 所 处 的 信息 时 代 ， 大 量 数 据 和 信息 呈现 快速 增长 的 特点 ， 这 些 数据 和 信息 通过 电子 媒 
介 进 行 收集 、 存 储 、 获 得 。 大 量 的 商业 数据 存储 在 非 结构 化 的 文本 文件 中 。Merill Lynch 和 Gar- 
mer 的 一 个 研究 表明 ， 获 取 和 存储 的 企业 数据 中 有 85% ~ 90% 是 非 结构 化 的 McKnight，2005 ) 。 
相同 的 研究 也 表明 这 些 非 结构 化 的 数据 每 18 个 月 在 数量 上 就 会 翻 一 倍 。 在 今天 的 商业 世界 中 ， 
知识 就 是 力量 ， 而 且 知 识 来 源 于 数据 和 信息 ， 商 务 需 要 有 效 地 挖掘 文本 数据 资源 ， 将 必要 的 知识 
用 于 更 好 的 决策 和 领导 ， 相 对 于 其 他 落后 的 商务 ， 这 些 商务 占据 了 优势 。 这 就 是 现今 商务 需要 文 
本 挖掘 的 原因 。 

文本 挖掘 〈 也 叫 文本 数据 挖 握 或 文本 型 数据 库 中 的 知识 发 现 ) 是 指 半自动 化 地 从 大 量 的 非 
结构 化 数据 资源 中 提取 模式 〈 即 有 用 的 信息 或 知识 ) 的 过 程 。 回 想 数 据 挖掘 是 指 从 存储 在 结构 
化 的 数据 库 的 数据 中 识别 出 有 效 的、 新 疾 的 、 潜 在 有 用 的 、 最 终 可 理解 的 模式 的 过 程 ， 这 些 数据 
以 分 类 的 、 顺 序 的 、 连 续 变 量 的 结构 组 织 为 记录 的 形式 。 文 本 挖 据 和 数据 挖 气 一 样 ， 它 们 具有 相 
同 的 目的 并 利用 相同 的 处 理 过 程 。 但 是 对 于 文本 挖掘 ， 处 理 过 程 的 输入 是 非 结构 化 〈 或 者 少量 
的 结构 化 ) 数据 文件 ， 这 些 数据 文件 包括 Word 文献 、PDF 文件 、 文 本 摘录 、XML 文件 等 。 实 质 
上 ， 文 本 挖掘 可 以 被 看 做 是 这 样 一 个 处 理 过 程 〈 包 括 两 个 主要 步 又) ， 首 先是 将 这 些 基 于 文本 的 
数据 资源 进行 结构 化 处 理 ， 然 后 利用 数据 挖掘 的 技术 和 工具 从 这 些 结构 化 的 文本 数据 中 提取 相 
关 的 信息 和 知识 。 

文本 挖掘 在 涉及 大 量 文本 型 数据 的 领域 占有 很 大 优势 ， 例 如 ， 法律 〈 法 庭 命令 ) 、 学 术 研 究 
(研究 论文 )、 财 务 (季报 ) 、 医 学 〈 诊 断 结 果 ) 、 生 物 学 (分 子 间 相互 作用 )、 技 术 (专利 文件 ) 
和 市 场 (顾客 意见 ) 。 比 如 顾客 之 间 以 自由 形式 存在 的 相互 的 抱怨 (或 鞠 扬 ) 和 索赔 要 求 的 文本 
资料 ， 可 以 客观 地 看 出 产品 的 好 坏 和 服务 态度 的 满意 程度 ， 这 些 资料 不 是 很 完美 但 是 可 以 促进 
产品 和 服务 质量 的 改进 。 同 样 ， 市 场 推广 计划 和 焦点 小 组 也 能 产生 大 量 的 数据 。 不 用 编纂 形式 限 
制 产品 和 服务 反馈 ， 换 句 话 说， 顾客 能 够 用 自己 的 话 来 体现 他 们 认为 的 公司 产品 和 服务 意见 。 非 
结构 化 文本 处 理 产 生 重 要 影响 的 另 一 个 重要 领域 是 电子 通信 和 电子 邮件 领域 。 文 本 挖掘 不 仅 可 
以 对 垃圾 邮件 进行 分 类 和 过 滤 ， 还 可 以 根据 邮件 的 重要 程度 自动 地 将 邮件 优先 处 理 ， 还 可 以 进 
行 自动 回复 (Weng and Liu，2004)。 下 面 是 文本 挖 据 技术 的 主要 应 用 领域 : 

。 信息 提取 通过 类 型 匹配 ， 利 用 事先 定义 的 顺序 ,识别 出 文本 中 的 关键 的 短语 和 关系 。 

。 主题 跟踪 ”根据 用 户 的 形象 和 对 用 户 一 些 行为 的 记载 ， 可 以 预测 出 该 用 户 感 兴 趣 的 一 些 文件 。 
摘要 一 个 文件 的 摘要 可 以 节省 读者 的 时 间 。 
分 类 了 和 解 每 个 文献 的 主题 ,并 根据 主题 将 这 些 文件 放 在 之 前 定义 好 的 分 类 中 。 
RE 将 没有 分 类 的 文件 放 入 到 类 似 的 分 类 中 。 
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。 概念 关联 将 具有 相同 概念 的 文件 联系 在 一 起 ， 这 样 可 以 帮助 用 户 找到 利用 传统 方法 所 
没有 找到 的 信息 。 
。 问题 解答 ”通过 知识 类 型 匹配 找到 所 给 问题 的 最 好 答案 。 
技术 前 沿 5. 1 解释 了 文本 挖掘 中 的 一 些 术 语 和 概念 ， 应 用 案例 5. 1 描述 了 专利 分 析 中 文本 挖 
掘 的 使 用 。 





下 面 是 文本 挖掘 中 所 涉及 的 常见 术语 : 

。 非 结 构 化 数据 ( 相对 于 结构 化 数据 ) ”结构 化 数据 具有 定义 好 的 格式 ， 通 常 是 简单 的 数据 以 记录 
(分 类 的 、 顺 序 的 、 连 续 变 量 ) 的 形式 存储 在 数据 库 中 。 相 反 ， 非 结构 化 数据 没有 预先 定义 好 的 格 
R, 存储 在 文本 文件 中 。 实 际 上 ， 结构 化 数据 用 于 计算 机 处 理 而 非 结 构 化 数据 用 于 人 类 人 处理 和 理解 。 

e 语料库 ”字面 上 ,语料库 是 指 大 量 有 组 织 的 文本 集合 (现在 通常 是 以 电子 化 的 方式 存储 和 处 理 )， 
用 于 进行 知识 发 现 。 

e 术语 术语 是 指 从 利用 自然 语言 的 形式 直接 从 特殊 领域 的 语料库 中 提取 出 来 的 一 个 词 或 多 词 短 语 。 

。 概念 ”概念 是 利用 人 工 、 统 计 并 基于 一 定 规 则 或 者 多 种 分 类 的 方法 ， 从 大 量 文件 中 得 到 的 结果 。 和 
术语 相 比 ， 概 念 是 更 高 级 别 抽象 的 结果 。 

。 词根 将 词语 的 变形 转化 为 原型 (或 者 基本 形式 、 根 源 ) 。 如 词语 stemmer, stemming, stemmed 的 
词根 都 是 stem。 

。 无 用 词 AAA (RFA) 是 指 通过 自然 语言 数据 (如 ， 文 本 ) 处 理 之 前 或 之 后 过 滤 掉 的 词语 。 

” ”尽管 没有 列 出 来 这 些 无 用 词 ， 但 是 大 多 数 自 然 语言 处 理工 具 列 出 了 冠 词 (如 ，a、an、the、of 等 ) 、 
附属 动词 (如 ，is、are、was、were 等 ) 和 专业 性 词语 ， 这 些 类 型 的 词语 没有 差异 。 

。 同义词 和 多 义 词 ”同义词 是 指 在 语句 构成 上 不 同 ( 如， 拼写 不 同 ), 但 是 在 意义 上 相同 或 相近 的 词语 
(如 电影 和 影片 )。 相 比 之 下 ， 多 义 词 ， 也 叫 异 物 同名 词 ， 是 指 在 构成 上 相同 (如 拼写 一 样 ), 但 是 意 
义 不 同 的 词语 (如 bow 可 以 解释 为 “向 前 弯曲 ”、“ 船 头 ”、“ 射 第 武器 ”或 者 “ 系 东 西 的 丝带 ”) 。 

。 标记 处 理 一 个 标记 是 指 一 个 句子 中 的 文字 分 类 块 。 文 字 分 类 块 是 根据 功能 标志 进行 分 类 。 这 项 任 
务 对 字 块 的 意义 就 是 标记 处 理 。 标 记 只 是 结构 化 文本 中 一 个 有 用 的 部 分 ， 它 可 以 表现 为 任何 形式 。 

。 术语 词典 ”对 一 个 专业 领域 的 术语 进行 汇总 ， 可 用 于 对 语料库 中 提取 出 的 术语 的 范围 进行 限定 。 

。 词 频 一 个 词语 在 一 个 特殊 文献 中 出 现 的 次 数 。 

。 词性 标注 一 个 文本 中 词 的 标注 要 和 词语 的 词性 (如 ， 名 词 、 动 词 、 形 容 词 和 副词 ) 相关 ， 词 性 
取决 于 词语 的 意思 、 上 下 文 语 境 。 

e 构词法 语言 学 和 研究 词语 结构 (词语 的 构成 形式 ) 的 自然 语言 领域 的 一 个 分 支 。 

。 文献 -术语 相关 矩阵 ( 频数 矩阵 或 术语 文献 矩阵 ) ”根据 术语 出 现 的 频率 和 文献 之 间 的 关系 制作 成 
的 以 表格 形式 体现 的 模式 ， 行 代表 术语 ， 列 代表 文献 ， 单 元 格 的 内 容 代表 术语 在 文献 中 出 现 的 频率 。 

。 奇异 值 分 解 (潜在 语义 索引 ) 一 种 纬度 简化 方法 ， 指 利用 一 个 类 似 于 主 成 分 析 的 矩阵 处 理 方法 ， 
用 一 个 大 小 合适 频数 表示 方式 代替 文献 术语 和 矩阵 中 的 频数 。 





应 用 案例 5. 1 ”专利 分 析 中 的 文本 挖掘 


专利 是 指 国家 赋予 一 项 公开 发 明 创造 的 首创 者 一 定期 限 内 所 拥有 的 独 享 权益 权利 (KA 
的 国家 专利 授予 的 程序 、 专 利 权 所 有 人 的 要 求 、 独 享 权利 的 范围 都 不 同 ) 。 这 些 公开 的 发 明 
对 将 来 的 科学 和 技术 有 促进 作用 。 仔 细 分 析 的 话 ， 专 利文 件 可 以 帮助 人 们 认识 新 兴 的 技术 、 
鼓励 新 颖 的 解决 方法 、 促 进 共生 合作 、 增 强 企业 的 能 力 和 局 限 的 全 面 意识 。 

专利 分 析 是 指 利用 分 析 技术 从 专利 数据 库 中 提取 有 用 的 知识 。 国 家 或 国家 组 织 主要 的 专 
利 数据 库 (A, KA, DA) 每 年 都 增加 上 千 个 专利 。 处 理 如 此 庞大 的 半 结 构 化 数据 
(专利 数据 库 中 通常 包括 部 分 结构 化 和 部 分 文本 型 数据 ) 几乎 是 不 可 能 的 。 而 利用 半自动 化 
的 软件 工具 是 简化 处 理 这 些 大 型 数据 库 的 一 种 方式 。 d 
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专利 分 析 的 典型 案例 

Eastaman Kodak 雇佣 了 世界 范围 内 5 000 多 个 科学 家 、 工 程 师 和 技术 人 员 。20 世纪 ， 这 
些 知识 工 作者 和 以 前 的 知识 工作 者 们 声称 世界 上 专利 数量 排名 前 10 位 的 企业 几乎 拥有 20 000 
个 专利 。 由 于 商业 界 连续 不 断 地 变化 ， 企 业 要 想 成 功 〈 或 者 仅仅 保持 生存 ) 就 要 依靠 自己 的 
能 力 来 应 用 超过 一 个 世纪 的 有 价值 的 科学 技术 ， 并 将 这 些 技术 应 用 到 新 领域 ， 同 时 利用 专利 
技术 保护 这 些 新 应 用 。 

Kodak 欣赏 专利 的 价值 ， 他 不 仅 自己 发 明 专利 并 且 还 研究 他 人 发 明 的 专利 。 通 过 依靠 分 
析 家 和 现 有 的 软件 工具 (包括 ClearForest 公司 的 专业 文本 挖掘 工具 ) Kodak 总 是 深入 到 各 种 
数据 资源 (专利 数据 库 、 新 的 成 就 和 产品 发 布 ) 中 ， 从 而 形成 具有 竞争 力 的 思想 。 就 像 Ko- 
dak， 对 专利 的 合理 分 析 可 以 给 企业 带 来 以 下 优势 : 

© 使 企业 具备 有 竞争 力 的 智力 。 了 解 竞争 对 手 的 情况 可 以 帮助 企业 做 出 反击 。 

© 可 以 帮助 企业 做 出 关键 性 的 商业 决策 ,， 例如 ， 生 产 什么 产品 ， 如 何 安 排 生 产 线 ， 深 入 

开发 哪 种 技术 或 者 想 要 什么 样 的 合并 和 并 购 方式 。 

e 帮助 企业 发 现 和 招聘 最 好 最 聪明 的 新 人 才 ， 名字 出 现在 专利 开发 上 的 那些 人 对 企业 
的 成 功 起 到 重要 的 作用 。 
帮助 企业 发 现 那些 非法 利用 自己 专利 的 行为 ， 采 取 行动 保护 自己 的 专利 。 
帮助 企业 认识 到 互补 的 专利 ， 从 而 帮助 企业 找到 合作 伙伴 或 者 促进 企业 间 的 合作 
关系 。 
© 可 以 防止 企业 竞争 者 生产 类 似 的 产品 ， 保 护 企 业 的 专利 诉讼 权 。 
将 专利 分 析 作 为 企业 丰富 知识 的 手段 和 战略 的 武器 (起 到 防御 和 攻击 的 双重 作用 ) Ko- 


dak 不 仅仅 能 够 生存 下 来 ， 而 且 通 过 创新 和 不 断 的 改进 在 市 场 上 占领 了 优势 。 
来 源 : P. X. Chiem, “Kodak Turns Knowledge Gained About Patents into Competitive Intelligence,” Knowledge Manage- 














ment ,2001 ,pp. 11 - 12; Y-H. Tsenga, C-J. Linb, and Y-I. Linc, “Text Mining Techniques for Patent Analysis, ” In- 
formation Processing & Management , Vol. 43 , No. 5 ,2007 , pp. 1216 - 1245. 

[ine eg 

5.1 节 复 习题 


1. 什么 是 文本 挖掘? 文本 挖掘 和 数据 挖掘 有 何不 同 ? 
2. 为 什么 文本 挖 据 作 为 一 个 BI 工具 越 来 越 重 要 ? 
3. 文本 挖掘 应 用 于 哪些 重要 的 领域 ? 


5.2 自然 语言 处 理 

早期 的 一 些 文本 挖掘 应 用 表现 为 一 个 叫做 字 代 模型 的 简单 形式 ， 字 和 袋 模型 是 一 个 基于 文本 
文件 的 集合 ， 它 将 这 些 文件 分 为 两 种 或 更 多 预先 测定 的 种 类 ,或 者 将 它们 进行 自然 分 类 。 在 这 个 
字 袋 模型 中 ,文本 比如 句子、 段落 或 者 整个 文件 表现 为 词语 的 集合 形式 ， 而 不 考虑 语法 和 词语 的 
顺序 。 在 一 些 简单 的 文本 分 类 工具 中 ， 字 袋 模 型 仍 被 采用 。 例 如 ， 垃 圾 邮件 过 滤 中 ， 电 子 邮 件 信 
息 被 看 做 是 一 些 无 序 词语 的 集合 (一 个 字 袋 模型 )， 这 些 词语 和 之 前 定义 好 的 两 个 不 同 的 “ 袋 ” 
进行 对 比 。 其 中 一 个 袋 中 是 组 成 垃圾 邮件 的 词语 ， 另 外 一 个 袋 中 是 组 成 合法 邮件 的 词语 。 尽 管 一 
些 词语 在 这 两 个 袋 中 都 可 以 找到 ， 但 是 垃圾 邮件 包 中 包含 的 与 垃圾 邮件 相关 词语 (如 库存 、 伟 
哥 和 购买 ) 的 出 现 的 频率 比 合法 邮件 袋 中 所 包含 的 词语 〈 如 用 户 的 朋友 或 工作 地 点 ) 出 现 的 频 
率 要 高 。 将 一 个 电子 邮件 的 “ 字 袋 模型 ”和 这 两 个 袋 之 间 进 行 对 比 ， 叙 述 语 决 定 这 个 电子 邮件 
是 属于 垃圾 邮件 还 是 合理 邮件 。 
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当然 ,我们 不 会 利用 一 些 没有 规律 和 结构 的 词语 ， 我 们 将 词语 组 成 句子 是 要 符合 语义 和 语 
法 结构 的 。 因 此 ， 自 动 化 的 技术 (如 文本 挖掘 ) 超出 了 字 袋 模型 所 能 处 理 的 能 力 并 且 在 字 袋 模 
型 中 引入 了 越 来 越 多 的 语义 结构 。 现 有 文本 挖掘 技术 包含 了 许多 先进 的 功能 ， 这 些 功能 通过 自 
然 语言 处 理 体现 出 来 。 

可 以 看 出 ， 字 袋 模型 的 方式 在 文本 挖掘 工作 (分 类 、 聚 集 、 联 系 等 ) 中 不 能 提供 令 人 满意 
的 信息 。 这 可 以 用 基于 证 据 的 医学 示例 说 明 。 基 于 证 据 的 医学 中 的 一 个 关键 操作 是 将 最 有 利用 
价值 的 研究 发 现 利 用 到 诊所 诊断 程序 中 ， 包 括 评 估 收 集 的 印刷 资料 的 有 效 性 和 相关 性 。 马 里 兰 
大 学 的 几 名 研究 者 利用 字 袋 模型 方法 对 收集 到 的 资料 进行 评估 (Lin and Demner，2005 ) 。 他 们 利 
用 了 著名 的 机 器 学 习 法 ， 对 从 MEDLINE (医学 文献 分 析 与 检索 在 线 系统 ) 收集 的 50 万 篇 研究 论 
文 进行 处 理 。 在 他 们 的 模型 中 ， 将 每 个 摘要 作为 一 个 字 袋 模型 ， 在 字 袋 模型 中 ， 每 个 主要 术语 表 
示 一 个 特征 。 尽 管 这 种 著名 的 分 类 方法 是 经 过 试验 证 实 了 的 ,但 是 预测 结果 并 不 比 简单 的 猜想 
好 ， 这 表明 字 袋 模型 在 这 个 领域 中 不 能 获得 令 人 满意 的 处 理 结 果 ; 因此 ， 需 要 利用 如 自然 语言 处 
理 这 种 先进 的 技术 进行 处 理 。 

自然 语言 处 理 (Natural Language Processing, NLP) 是 文本 挖掘 中 一 个 重要 的 组 成 部 分 ， 也 
是 人 工 智 能 和 机 器 语言 领域 的 一 个 部 分 。 它 将 人 类 语言 描述 〈 如 文本 型 文件 ) 转变 为 更 容易 被 
计算 机 程序 所 能 操作 的 形式 (数字 或 符号 格式 的 数据 ) ， 从 而 “理解 ”人 类 自然 语言 。NLP 的 目 
的 是 将 语法 驱动 文本 操作 的 处 理 (通常 叫做 “文字 统计 ”) 变 为 真正 的 自然 语言 理解 和 处 理 ， 这 
种 自然 语言 具有 语法 、 语 义 和 上 下 文 的 约束 。 

“可 被 理解 ”的 深度 和 广度 是 NLP 讨论 的 主要 主题 。 如 果 人 类 自然 语言 表达 不 明确 ， 而 且 理 
解 时 需要 对 所 涉及 的 主题 有 一 定 程度 的 了 解 (不 仅仅 要 知道 这 些 词语 、 语 句 、 段 落 是 什么 意 
思 ) ， 那 么 计算 机 能 够 像 人 类 一 样 准确 地 理解 自然 语言 吗 ? 可 能 不 会 ! 从 简单 的 文字 统计 到 NLP 
需要 许多 处 理 过 程 ， 要 真正 理解 自然 语言 就 需要 更 多 的 处 理 过 程 。 下 面 是 一 些 与 实现 NLP 有 关 
的 一 些 挑战 性 问题 : 

。 部 分 词性 标注 ”由 于 涉及 词性 (如 名 词 、 动 词 、 形 容 词 和 副词 )， 增 加 了 专业 术语 标记 

成 文本 的 难度 。 因 为 词性 不 仅 与 专业 术语 的 含义 有 关 ， 而 且 还 与 所 在 的 上 下 文 有 关系 。 
e 文本 分 割 ” 在 一 些 书面 语言 中 ， 如 中 文 、 日 文 和 泰文 ， 字 与 字 之 间 没 有 边界 。 在 这 种 句 
子 中 ,文本 解析 过 程 需要 对 文字 的 边界 进行 界定 ， 这 通常 很 困难 。 相 同 的 断 句 问题 也 会 
出 现在 口语 分 析 中 ， 因 为 说 话 的 时 候 一 系列 词语 连接 在 一 起 。 

e 词语 歧义 ”许多 词语 不 仅 有 一 种 意思 ， 而 且 还 需要 通过 查看 上 下 文 使 用 的 词语 ， 才 能 判 
断 出 哪 种 意思 使 句子 更 有 意义 。 

。 语法 含糊 不 清 ”自然 语言 的 语法 含糊 不 清 ， 也 就 是 说 ,我 们 要 考虑 到 多 种 句子 结构 。 对 

句子 的 结构 做 出 正确 的 判断 ， 需 要 将 语义 和 上 下 文 信息 结合 起 来 。 

e 有 缺陷 或 不 规则 的 输入 ”说 外 语 或 方言 、 发 音 问题 以 及 印刷 或 语法 上 的 文本 错误 都 会 使 

语言 的 处 理工 作 变 得 更 加 困难 。 

e 说 话 的 方式 ”句子 通常 代表 说 话 人 的 行动 ， 但 是 单独 的 句子 结构 不 可 能 包含 足够 的 信息 

用 来 确定 行动 。 例 如 ,“ 你 能 通过 这 门 课 吗 ?” 仅 需要 回答 “是 或 否 ”， 但 是 “你 能 把 盐 
递 给 我 吗 ?” 还 需要 肢体 语言 的 配合 。 

在 人 工 智能 领域 中 ， 实 现 自动 阅读 能 力 的 算法 以 及 从 文本 中 获取 知识 还 需要 很 多 处 理 过 程 。 
斯 坦 福 大 学 NLP 实验 室 的 研究 人 员 利 用 学 习 算 法 解析 文本 找到 了 一 些 方法 ， 借 助 这 些 方法 可 以 
从 文本 中 自动 识别 一 些 概念 以 及 发 现 这 些 概 念 之 间 的 关系 。 通 过 对 这 些 大 量 文本 进行 独特 的 处 
理 ， 他 们 的 算法 可 以 帮助 他 们 从 这 些 本 文中 自动 地 获得 许多 成 百 上 千 的 知识 条 目 ， 利 用 这 些 方 
法 还 可 以 在 某 种 程度 上 提高 词汇 网 络 库 。 词 汇 网 络 是 指 一 个 包含 词语 、 词 语 含义 、 近 义 词 集合 ， 
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以 及 同义词 语义 之 间 关系 的 手工 编制 的 复杂 数据 库 。 词 汇 网 络 是 NLP 应 用 的 主要 部 分 ， 但 是 建 
立 和 手工 维护 词汇 网 络 的 成 本 非常 昂贵 。 因 此 ， 通 过 将 知识 自动 地 引入 到 词汇 网 络 中 ， 使 词汇 网 
络 成 为 NLP 一 个 强大 的 、 丰 富 的 资源 。 

NLP 发 挥 显著 优势 并 取得 了 很 大 成 果 的 领域 是 客户 关系 管理 。 一 般 地 说 ，CRM 的 目标 是 对 
顾客 需求 或 察觉 到 的 用 户 需 求 做 出 更 好 的 理解 并 做 出 积极 的 回应 ， 从 而 实现 顾客 价值 最 大 化 。 
NLP 对 CRM 有 重要 影响 的 地 方 是 情绪 分 析 。 语 义 分 析 是 一 个 从 大 量 文本 型 数据 资源 (网 页 上 记 
录 的 顾客 反馈 信息 ) 中 发 掘 顾 客 对 产品 或 服务 所 持 有 的 满意 或 不 满意 的 观点 的 技术 。 应 用 案例 
5. 2 就 是 一 个 在 CRM 领域 ， 应 用 文本 挖掘 的 成 功 例子 。 








应 用 案例 5. 2 ”文本 挖掘 技术 帮助 Merck 更 好 地 理解 和 服务 于 顾客 需求 


Merck Sharp&Dohme (MSD) 是 一 个 全 球 性 的 研究 药品 的 德国 公司 ， 所 研究 的 药品 主要 用 
于 满足 全 球 人 类 的 健康 需要 。MSD 成 立 于 1891 年 ， 该 公司 通过 了 解 、 研 究 、 生 产 和 销售 疫 
苗 及 药品 ， 解 决 人 类 健康 所 面临 的 问题 。 

作为 世界 上 最 大 的 药品 制造 公司 ，MSD 主要 的 投入 是 医生 向 病人 提供 的 帮助 ， 预 期 的 产 出 是 
那些 得 了 艾滋 病 、 骨 质 疏 松 症 、 心 脏 衰弱 、 偏 头疼 、 哮 喘 以 及 其 他 病 的 病人 获得 更 好 的 帮助 。 

MSD 许多 年 前 就 意识 到 了 知识 发 现 的 重要 性 ， 并 研发 了 一 个 利用 数据 挖掘 和 文本 挖掘 技术 来 
丰富 自己 的 数据 和 信息 集合 的 分 析 型 项 目 。MSD 利用 SPSS 中 的 文本 挖 握 技 术 分 析 搜集 到 的 来 自 于 
各 种 资源 的 信息 ， 然 后 利用 这 些 信息 找 出 能 够 满足 内 科 医 生 和 病人 需求 的 诊断 程序 。 

挑战 

和 其 他 职业 一 样 ， 在 医疗 保健 行业 的 医生 也 有 自己 的 看 法 和 观点 ， 这 就 是 MSD 所 面临 的 
挑战 。 要 能 够 及 时 获得 医生 做 出 的 诊断 信息 并 能 将 这 些 诊断 信息 发 送 到 产品 研发 部 门 ， 从 而 
生产 出 更 好 的 药品 并 为 这 些 药品 做 好 市 场 营 销 活 动 。MSD 要 不 断 地 适应 不 同 的 目标 用 户 ， 这 
件 工作 是 非常 困难 的 。 一 方面 , “敢于 创新 ”的 医生 有 鲜明 的 洞察 力 ， 研 究 结果 很 快 地 由 科 
学 理论 转变 为 现实 。 另 一 方面 ,“ 保 守 个 性 ”的 医生 遵循 传统 的 方法 ， 任 何事 情 都 遵照 书本 ， 
将 大 量 的 时 间 放 在 研究 治疗 方法 上 ， 这 些 方法 来 源 于 专家 的 论文 或 者 是 同事 之 间 相 互 讨 论 的 
结果 。MSD 想 要 找到 适合 不 同类 型 医生 的 方法 ， 就 需要 先 判断 医生 所 属 的 类 型 。 因 此 ，MSD 
需要 分 析 来 自 不 同 来 源 的 大 量 的 资料 (包括 内 部 数据 和 外 部 人 员 提 供 的 数据 ) ， 才 能 做 出 正 
确 的 判断 。 

解决 方案 

MSD 利用 文本 挖掘 和 SPSS 的 定量 分 析 工 具 来 更 好 地 理解 调查 得 到 的 数据 ， 其 中 的 一 些 
资料 来 源 于 各 种 小 组 交流 讨论 ， 然 后 向 市 场 部 提供 有 价值 的 信息 。 调 查 内 容 包 括 医生 从 医 的 
年 数 、 医 生 的 病人 数量 以 及 一 些 问答 资料 生成 的 无 限制 的 文本 反应 。 一 旦 发 现 有 用 的 数据 ， 
专业 分 析 人 员 就 会 分 析 数 据 的 各 种 意义 及 其 之 间 的 联系 从 而 进行 深入 的 研究 。 同 时 ，MSD 将 
收集 到 的 数据 用 于 分 析 。 分 析 工 具 允 许 MSD 将 医生 作为 类 型 学 的 处 理 对 象 。 利 用 市 场 部 提供 
的 指标 实现 了 医生 分 类 ， 这 样 MSD 就 能 针对 不 同 的 目标 用 户 采取 不 同 的 行动 。 

结果 

对 MSD 而 言 ,文本 挖掘 技术 一 一 分 析 非 结构 化 的 文本 型 数据 一 一 是 必 不 可 少 的 。 文 本 挖 
气 建 立 在 文本 自然 语法 分 析 的 基础 上 。 它 不 仅仅 是 对 关键 字 的 搜索 ， 还 是 对 语法 的 分 析 和 内 
容 的 “理解 "。 这 样 ， 企 业 就 可 以 获得 有 用 的 信息 ， 从 而 增强 了 自身 的 竞争 力 。 
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MSD 和 Gesellschaft fiir Konsumforschung 公司 的 专题 讨论 小 组 (研究 顾客 行为 ) 相互 合作 ， 
用 医生 的 日 常 工作 记录 分 析 都 用 到 了 哪些 药物 ， 包 含 了 药物 产品 哪些 方面 的 信息 ， 以 及 将 来 
处 方 中 还 会 不 会 继续 使 用 这 些 药物 。 通 过 对 医生 谈话 和 处 方 中 体 现 的 医药 信息 ， 进 行文 本 控 
气 分 析 ， 使 得 MSD 优化 了 其 产品 和 市 场 活动 ， 并 提高 了 市 场 代表 的 谈判 能 力 。 利 用 SPSS 和 
它 的 文本 挖掘 工具 ， 通 过 和 医生 谈话 ，MSD 认识 到 药物 哪 方面 的 属性 和 信息 容易 被 人 理解 ， 
该 术语 用 于 市 场 活动 中 时 需要 进行 提炼 。 

来 源 : SPSS“ Merck Sharp & Dohme,” storieshttp://www. spss. com/success/template_view. cfm? Story_ID = 185 

(accessed May 15,2009). 


语义 分 析 为 各 种 应 用 提供 了 巨大 的 机 会 。 比 如 ， 在 竞争 力 分 析 、 市 场 分 析 和 人 危机 事件 的 谎言 
处 理 中 发 挥 了 巨大 作用 。IBM 研究 人 员 设 计 了 一 种 语义 分 析 方 法 ， 从 收集 到 的 资料 中 的 某 个 专题 
(产品 或 服务 ) 中 找 出 涉及 支持 和 反对 两 种 观点 。 (Kanayama and Nasukawa, 2006) 语义 分 析 主 
要 问题 就 是 识别 文本 中 的 观点 是 怎么 表述 的 ， 这 种 表述 所 代表 的 是 支持 还 是 反对 的 态度 。 为 了 
提高 分 析 的 准确 性 ， 找 出 观点 表述 和 主题 之 间 的 语义 关系 是 非常 重要 的 。 利 用 语法 分 析 器 和 人 情 
绪 词 汇 进行 语义 分 析 ，IBM 公司 的 系统 能 够 从 网 页 和 新 文章 中 分 析 观 点 ， 达 到 很 高 精确 度 G 
到 75% ~95% ， 依 赖 于 数据 的 多 少 ) 。 

NLP 已 经 成 功 地 利用 计算 机 程序 自动 地 处 理 以 前 只 能 由 人 类 处 理 的 自然 语言 ， 并 在 各 种 领域 
中 得 到 应 用 。 下 面 是 一 些 主要 的 应 用 领域 : 

。 信息 检索 ”查找 相关 的 文献 ， 从 中 找 出 专业 知识 并 产生 出 这 些 内 容 的 元 数据 。 

。 信息 提取 信息 检索 的 目的 之 一 是 自动 地 提取 结构 化 信息 ， 例 如， 从 某 个 机 器 可 识别 的 

非 结 构 化 领域 中 得 到 已 分 类 的 、 内 容 连贯 的 、 有 特定 语义 的 、 定 义 明确 的 数据 。 

。 命名 实体 识别 ”与 实体 识别 和 实体 提取 一 样 ， 信 息 提取 的 另外 一 个 目的 是 从 文本 中 找 出 
实体 并 进行 分 类 ， 如 姓名 、 组 织 、 地 址 、 时 代表 达 式 、 数 量 、 货 币 、 百 分 比 等 。 
问题 解答 ”自动 回答 用 自然 语言 提问 的 问题 ， 就 是 当 给 出 一 个 用 人 类 语言 的 形式 表述 的 
问题 时 ， 能 够 产生 人 类 语言 类 型 的 答案 。 计 算 机 程序 从 结构 化 数据 库 或 者 收集 的 自然 语 
言 文件 〈 例 如 万 维 网 中 的 文本 语料库 ) 中 找到 问题 的 答案 。 
自动 总 结 利用 计算 机 程序 生成 一 个 包含 文献 最 重要 观点 的 缩 略 版 本 。 
自然 语言 生成 ”系统 可 以 将 计算 机 数据 库 中 的 信息 转化 为 人 类 可 读 的 语句 。 
自然 语言 理解 ”系统 可 以 将 人 类 语言 转化 为 计算 机 程序 更 容易 操作 的 更 正式 的 表示 法 。 
机 器 翻译 ”自动 地 将 一 种 人 类 语言 翻译 为 另 一 种 语言 。 
阅读 外 语 计算 机 程序 能 够 帮助 非 本 语言 读者 用 正确 的 发 音 和 口音 阅读 不 同 语言 部 分 的 外 语 。 
书写 外 语 计算 机 程序 能 够 帮助 用 户 用 外 语 书 写 。 
语音 识别 ”将 口语 转化 为 机 器 可 读 的 输入 。 根 据 人 的 发 音 ， 系 统 产生 文本 型 文字 。 
文本 到 语音 ”也 叫 语音 合成 ， 计 算 机 程序 自动 地 将 自然 语言 文本 转化 为 语音 形式 。 
文本 校对 计算 机 程序 对 校 稿 或 文件 中 的 错误 进行 核查 和 改正 。 
视觉 识别 ”将 手写 稿 的 图 片 、 打 字 机 稿 或 打印 文件 (通常 通过 电子 扫描 仪 获取 ) 转化 为 
机 器 可 识别 的 文本 型 文件 。 

文本 挖掘 的 成 功 和 普及 在 很 大 程度 上 依赖 于 NLP 的 进步 和 对 人 类 语言 的 理解 。NLP 实现 了 
从 非 结 构 化 文本 中 提取 信息 ， 这 使 得 数据 挖掘 技术 被 用 于 知识 (新 颖 有 用 的 形式 和 关系 ) 提取 。 
简 而 言 之 , 文本 挖掘 是 NLP 和 数据 挖掘 的 结合 。 


5. 2 节 复 习题 
1. 什么 是 自然 语言 处 理 ? 
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2. NLP 和 文本 挖掘 之 间 有 什么 联系 ? 
3. NLP 有 哪些 好 处 和 挑战 ? 
4. NLP 有 哪些 主要 应 用 ? 


5.3 ”文本 挖掘 应 用 

随 着 组 织 机 构 收 集 的 非 结 构 化 数据 的 增长 ， 文 本 挖掘 工具 的 价值 和 普及 也 呈 上 升 的 趋势 。 
许多 组 织 机 构 意 识 到 利用 文本 挖掘 工具 从 基于 文献 的 数据 中 提取 知识 变 得 非常 重要 。 下 面 是 文 
本 挖掘 工具 的 一 部 分 应 用 类 型 。 


5. 3.1 市 场 营销 应 用 


文本 挖掘 通过 分 析 客 户 服务 中 心 的 非 结构 化 数据 来 提升 交叉 销售 和 追加 销售 的 业绩 。 利 用 
文本 控 掘 算法 ， 从 客户 服务 中 心 获得 的 数据 及 顾客 的 交谈 记录 中 ， 提 取 顾 客 对 企业 产品 和 服务 
新 颖 的 、 可 采取 行动 的 信息 。 另 外 ， 顾 客 在 曾经 浏览 的 网 页 上 对 产品 的 评述 、 博 客 以 及 讨论 区 是 
企业 发 觉 顾客 意见 的 好 方式 。 对 大 量 的 信息 进行 合理 分 析 ， 可 以 提升 顾客 的 满意 度 和 终身 顾客 
的 价值 (Coussement and Van den Poel, 2008)。 

文本 挖掘 为 客户 关系 管理 提供 了 非常 宝贵 的 价值 。 企 业 利用 文本 挖掘 对 大 量 非 结构 化 数据 
进行 分 析 ， 结 合 对 从 组 织 机 构 数据 库 中 的 提取 的 结构 化 数据 ,来 预测 顾客 的 需求 和 购买 行为 。 
Coussement and Van den Poel (2009) 利用 文本 挖掘 预测 顾客 消极 态度 〈 人 例如， 顾客 数量 减少 ) ， 
因此 ， 企 业 可 以 认识 到 顾客 放弃 本 企业 产品 的 可 能 性 ， 并 明确 地 知道 让 顾客 保留 下 来 的 方法 。 

Ghani et al. (2006) 文献 将 文本 挖掘 工具 应 用 于 推断 产品 的 显 性 和 隐 性 属性 ， 从 而 提高 零售 商 
分 析 产 品 数据 库 的 能 力 。 把 商品 看 做 是 各 种 有 价值 的 属性 的 集合 ， 而 不 仅仅 是 原子 的 堆积 ， 这 能 使 
产品 在 许多 商业 应 用 上 更 有 价值 ， 如 需求 预测 、 最 优化 决策 、 产 品 推荐 、 零 售 商 和 供应 商 的 对 比 以 
及 产品 供应 商 的 选择 等 应 用 中 。 系 统 通过 利用 监督 学 习 或 半 监 督学 习 技 术 从 零售 商 的 网 站 上 了 解 产 
品 的 属性 。 这 样 企业 在 花费 少量 的 人 工 成 本 的 基础 上 ， 就 能 突出 产品 的 属性 和 属性 价值 。 


5.3.2 ”安全 应 用 


文本 挖掘 在 安全 领域 最 重要 的 应 用 是 ECHELON 监视 系统 。 正 如 传说 中 的 一 样 ，ECHELON 
系统 能 够 识别 的 内 容 有 电话 呼叫 、 传 真 、 电 子 邮 件 信 息 及 其 他 类 型 的 数据 ， 以 及 通过 卫星 、 公 用 
电话 网 和 微波 传送 拦截 到 的 信息 。 

2007 年 ， 欧 洲 刑警 组 织 EUROPOL 开发 了 一 个 集成 系统 ， 这 个 系统 集成 了 市 场 上 最 新 的 数据 
和 文本 挖掘 技术 ， 通 过 获取 、 存 储 和 分 析 大 量 的 结构 化 和 非 结 构 化 数据 来 追踪 国际 组 织 的 犯罪 
行为 ， 该 系统 称 为 综合 智能 支持 分 析 系 统 。 该 系统 使 得 欧洲 警察 组 织 在 国际 上 执行 法 律 效 力 取 
得 了 很 大 成 果 (EUROPOL，2007 ) 。 

美国 联邦 调查 局 (Federal Bureau of Investigation, FBI) 和 美国 中 央 情 报 局 (Central Intelli- 
gence Agency，CIA) ， 在 国家 安全 部 门 的 帮助 下 ， 联 合 开发 了 一 个 超级 计算 机 数据 和 文本 挖掘 系 
统 。 该 系统 主要 作用 是 创建 一 个 大 型 的 数据 仓库 ， 该 数据 库 包 含 联邦 政府 、 国 家 和 地 方法 律 部 门 
知识 控 掘 所 需要 的 各 种 数据 和 文本 挖掘 模型 。 在 此 之 前 ， 美 国联 邦 调查 局 和 美国 中 央 情 报 局 有 
各 自 独 立 的 数据 库 ， 这 些 数据 库 中 之 间 有 少量 甚至 没有 关联 。 

文本 挖掘 在 安全 领域 中 的 另外 一 个 应 用 是 欺诈 行为 侦察 。Fuller et al. (2008) 研发 了 一 种 鉴 
别 出 欺 诈 行 为 的 模型 ， 对 大 量 真实 世界 犯罪 (嫌疑犯 ) 相关 的 资料 进行 文本 挖掘 处 理 。 该 模型 
利用 从 文本 中 提取 的 大 量 线索 ， 对 抽样 进行 预测 ， 准 确 率 达到 70% 。 由 于 线索 仅仅 是 从 文本 型 
资料 〈 没 有 语言 和 视觉 上 的 资料 ) 中 提取 的 ， 所 以 能 达到 这 种 准确 率 意义 非 同 寻常 。 而 且 ， 和 
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其 他 欺诈 行为 侦察 技术 相 比 ， 例 如 测 谎 器 ， 这 种 方法 能 够 做 到 不 打 草 惊 蛇 ， 并 能 广泛 应 用 于 文本 
型 数据 和 录制 的 音频 中 。 应 用 案例 5. 3 更 详细 地 介绍 了 基于 文本 的 欺诈 行为 侦察 。 








应 用 案例 5. 3 mais 


随 着 网 络 信息 的 增长 和 全 球 化 的 趋势 ， 计 算 机 通信 慢 慢 渗入 到 人 们 的 日 常生 活 中 ， 欺 骗 
犯罪 行为 也 出 现 了 新 的 形式 。 聊 天 信息 、 即 时 信息 、 文 本 信息 和 在 线 社区 活动 信息 迅速 增 
长 。 甚 至 连 电 子 邮 件 的 使 用 也 越 来 越 频繁 。 随 着 文本 交流 信息 的 大 幅度 增加 ， 人 们 通过 计算 
机 通信 进行 欺诈 的 行为 也 越 来 越 多 ， 并 造成 严重 的 损失 。 

令 人 遗憾 的 是 ， 人 们 对 欺骗 行为 的 检测 结果 不 是 很 好 ,文本 通信 使 得 检测 欺骗 变 得 更 加 
困难 。 大 量 的 欺骗 检测 (如 置信 和 度 评定 ) 研究 包含 面对面 的 交流 和 访问 。 因 此 ， 随 着 基于 文 
本 通信 的 增加 ， 基 于 文本 的 犯罪 行为 侦察 技术 是 必要 的 。 

成 功 侦查 欺骗 行为 ARARE) 的 技术 已 经 得 到 普遍 应 用 。 法 律 案件 中 利用 决策 支持 
工具 和 技术 进行 犯罪 调查 ， 机 场 安检 ， 监 控 鸭 怖 分 子 嫌疑 犯 通信 信息 。 人 力 资源 部 门 可 以 利 
用 欺骗 侦查 技术 对 职位 申请 人 进行 调查 。 公 司 办 公 人 员 用 这 些 工具 和 技术 检查 电子 邮件 信 
息 ， 发 现 欺诈 或 不 正当 的 行为 。 尽 管 有 些 人 认为 自己 可 以 识别 出 那些 不 可 信 的 人 ,但 是 欺骗 
行为 研究 结果 表明 : 平均 54% 的 人 能 够 做 出 准确 的 判断 (Bond and Depaulo，2006)。 如 果 涉 
及 从 文本 信息 中 查 出 欺骗 行为 ， 那 么 这 个 数据 可 能 更 低 。 

Fuller et al. (2008) 将 文本 挖 气 和 数据 控 气 技术 联合 起 来 ， 对 军事 犯罪 中 嫌疑 犯 个 人 陈 
述 资 料 进行 了 分 析 。 这 些 资 料 来 自 于 嫌疑 人 和 目击 者 用 自己 的 语言 写 下 的 对 事件 的 回忆 。 军 
事 执 法 人 员 通 过 核对 档案 信息 ， 判 断 这 些 陈 述 是 真实 的 还 是 虚假 的 ， 这 些 判断 建立 在 有 效 的 
证 据 和 决议 的 基础 上 。 一 旦 材料 被 证 实 为 真 或 假 ， 执 法 人 员 就 会 将 这 些 判 定 结果 和 陈述 资料 
交 给 研究 小 组 。 最 终 ， 共 有 371 个 陈述 文件 用 于 分 析 。 以 上 Fuller et al. (2008) 文献 采用 的 
基于 文本 的 欺骗 检测 方法 是 利用 了 一 种 称 为 “信息 特征 挖 据 ”的 处 理 过 程 ， 该 过 程 依靠 数据 
元 素 和 文本 挖掘 技术 。 图 5-2 对 这 个 过 程 进行 了 简单 描述 。 
















根据 法 律 判断 









对 量化 线索 采用 
分 类 模型 培训 
和 测试 









文本 处 理 软 件 
识别 陈述 线索 








文本 处 理 软件 
将 线索 量化 


图 5-2 基于 文本 的 欺诈 行为 侦察 过 程 


来 源 : C. M. Fuller, D. Biros and D. Delen," Exploration of Feature Selection and Advanced Classification Models for 
High-Stakes Deception Detection ," in Proceedings of the 41st Annual Hawaii International Conference on system 
Sciences (HICSS), January 2008, Big Island, HI, IEEE Press, pp. 80 -99. 
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首先 ， 调 查 人 员 准 备 数据 。 原 始 的 手写 陈述 文件 要 转录 到 Word 文献 中 。 然 后 ,识别 特征 
(也 就 是 线索 )。 调 查 人 员 辨 别 出 31 类 重 55.4 欺骗 检测 语言 特征 中 用 到 的 种 类 和 示例 
要 特点 ， 这 些 重要 特点 的 类 型 和 语言 种 类 示例 
与 原文 件 相互 独立 ， 并 且 可 以 用 自动 化 的 
方法 进行 分 析 。 如 ， 第 一 个 人 的 发 音 可 以 
通过 所 说 的 话 ， 如 “I or me” 进 行 判断 ， 
而 不 需要 对 文本 内 容 进行 分 析 。 表 5-1 列 
出 了 这 个 研究 中 的 重要 信息 的 种 类 并 进行 
举例 说 明 。 印刷 错误 比例 

将 陈述 文件 中 提取 到 的 特征 放 到 一 个 时 空 信息 、 直 沉 信 息 等 
简单 的 文件 中 ， 以 便 以 后 使 用 。 用 十 折 交 _9 | 影响 ”| 积极 影响 、 消 极 影响 等 


ond 5 Sa : 来 源 : Based on C. M. Fuller ,D. Biros ,and D. Delen “Exploration 
又 确认 法 和 其 他 几 种 特征 选择 方法 ， 研究 of Feature Selection and Advanced Classification Models 


从 句 的 平均 个 数 、 句 子 的 平均 长 度 等 
修饰 词 、 情 态 动词 等 
消极 的 声音 、 客 观 因素 等 


























人 员 比 较 了 3 种 流行 数据 挖掘 方法 的 预测 for Higi- Stikes Deception Detection,” ii Doceadiigs of 
精确 度 。 结 果 表 明神 经 网 络 模型 在 测试 样 the 41st Annual Hawaii International Conference on System 

~ r is Sciences( HICSS) ,2008 , Big Island ,IH, IEEE Press, pp. 
本 数据 时 精确 度 最 高 ， 达 到 73.46% ; k 80 -99;C. F. Bond and B. M. DePaulo, “ Accuracy of De- 
策 树 次 之 ， 精 确 度 为 71.60% ; 回归 分 析 ception Judgments,” Personality and Social Psycbology Re- 
方法 精确 度 最 差 ， 为 65. 28% 。 ports , Vol. 10, No. 3 ,2006 ,pp. 214 — 234. 


以 上 结果 表明 利用 文本 信息 对 欺骗 行为 进行 自动 化 的 侦查 能 够 帮助 调查 人 员 从 文本 信息 
中 找 出 欺骗 信息 ， 并 能 应 用 到 真实 世界 数据 中 。 尽 管 这 些 技术 仅 适 用 于 文本 型 线索 ,但 是 它 
们 的 精确 度 高 于 绝 大 多 数 其 他 的 欺骗 行为 侦查 技术 。 











5. 3.3 生物 医学 应 用 


文本 挖掘 在 医药 和 生物 医学 领域 有 重要 应 用 ， 主 要 由 于 以 下 几 个 原因 。 首 先 ， 该 领域 的 
文献 和 出 版 物 〈 特 别 是 开放 性 资源 期 刊 的 出 现 ) 在 数量 上 以 指数 的 形式 上 涨 。 其 次 ， 和 其 他 
领域 相 比 ， 医 药 领域 的 文献 更 加 规范 、 标 准 ， 使 其 成 为 一 个 “可 挖掘 的 ”信息 资源 。 最 后 ， 
该 领域 专业 术语 相对 固定 上 且 格 式 标准 。 下 面 是 文本 挖掘 技术 在 生物 医学 文献 中 提取 新 模式 的 
典型 应 用 。 

实验 技术 ， 如 DNA 序列 分 析 、 基 因 表 达 系 列 分 析 (Serial Analysis of Gene Expression, SAGE) 
和 和 蛋白 质 质谱 分 析 ， 生 成 大 量 和 基因 、 和 蛋白 质 相 关 的 数据 。 和 其 他 实验 型 方法 一 样 ， 需 要 对 这 些 
研究 中 的 大 量 生物 体 数据 进行 分 析 。 该 领域 的 相关 文献 可 以 为 实验 验证 和 实验 解释 提供 大 量 的 
信息 资料 。 因 此 ， 将 自动 化 的 文本 挖掘 工具 应 用 于 实验 解释 是 目前 生物 学 研究 所 面临 的 一 个 主 
要 挑战 。 

知道 蛋白 质 在 细胞 内 的 分 布 有 助 于 分 析 它 在 生物 学 和 在 药物 中 的 作用 。 文 献 中 介绍 了 许多 
蛋白 质 分 布 预测 系统 ， 有 些 文献 针对 某 些 特定 的 细胞 进行 研究 ， 有 些 文献 则 涉及 大 量 的 细胞 。 
Shatkay et al. (2007) 提出 了 一 个 基于 多 种 序列 分 析 和 文本 特征 的 蛋白 质 存 储 单元 综合 预测 系 
统 。 该 系统 的 创新 之 处 在 于 它 选 择 文本 资料 的 方法 ， 以 及 用 序列 分 析 法 将 这 些 资料 进行 集成 分 
析 。 他 们 分 别 用 以 前 的 数据 集 和 新 的 数据 集 来 测试 系统 的 预测 能 力 ， 结 果 表 明 他 们 的 系统 总 是 
优 于 以 前 的 判断 结果 。 

Chun et al. (2006) 利用 美国 国立 医学 图 书馆 (MEDLINE) 的 文献 ， 设 计 了 一 个 发 现 疾病 和 
基因 之 间 关 系 的 系统 。 他 们 记录 了 6 个 公共 数据 库 中 的 疾病 和 基因 并 组 成 了 一 个 字典 ， 通 过 字典 
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匹配 发 现 其 中 的 关联 。 由 于 字典 匹配 产生 大 量 错误 的 信息 ， 所 以 他 们 利用 基于 机 器 学 习 的 命名 
实体 识别 技术 (Named Entity Recognition，NER) ， 过 滤 出 错误 的 疾病 -基因 命名 。 他 们 发 现 能 否 
发 现 疾病 和 基因 之 间 的 关系 主要 取决 于 命名 实体 识别 过 滤器 的 性 能 ， 在 使 用 在 过 滤器 的 基础 上 
精确 度 提 高 了 26.7% ， 并 减少 了 没 用 的 信息 。 oe | í 

图 5-3 简单 描述 了 文献 (Nakov et al. , 2005) 中 ， 从 生物 医学 文献 中 发 现 基因 -蛋白 质 
关系 (或 蛋白 质 - 蛋 白质 关系 ) 的 多 级 文本 分 析 过 程 。 该 示例 对 生物 医学 文本 中 一 个 简单 句 
子 中 最 主要 部 分 (第 三 层 底部 ) 的 词性 标记 出 来 ， 并 进行 浅 层 句法 分 析 。 用 层次 表示 法 对 
标记 的 生物 学 内 容 (词语 ) 进行 分 析 ， 从 而 得 到 基因 -蛋白 质 之 间 的 关系 。 将 这 种 方法 (R 
者 这 种 方法 的 改进 ) 应 用 到 生物 医学 文献 中 ， 对 人 类 基因 组 计划 中 的 复杂 解码 发 挥 了 重大 
的 作用 。 








图 5-3 ”多 级 文本 分 析 过 程 的 基因 -蛋白 质 之 间 关 系 


来 源 : P. Nakov, A. Schwartz, B. Wolf, and M. A. Hearst," Supportiong Annotation Layers for Natural Language Processing. " 
Proceedings of the Association for Computational Linguistics( ACL) ,interactiov poster and demonstration sessions ,2005 , 
Ann Arbor, MI, pp. 65 - 68. 


5.3.4 ”学术 应 用 


利用 文本 挖掘 对 信息 制定 索引 ， 便 于 信息 检索 的 需要 ， 对 于 拥有 大 量 数据 库 的 出 版 商 具 有 
重要 作用 。 特 别 是 科研 领域 ， 因 为 科研 领域 的 文献 中 存储 着 大 量 的 专业 信息 。 有 些 措施 已 经 开始 
实施 ， 如 《Natural》 期 刊 的 文本 挖掘 接口 和 美国 国立 卫生 研究 院 的 公共 期 刊 的 文献 类 型 定义 
(Document Type Definition, DTD), DTD 是 指 给 机 器 提供 语法 提示 ， 回 答对 文献 中 所 包含 内 容 进 
行 的 特殊 查询 ， 而 无 需 消除 出 版 商 对 公众 访问 的 限制 。 

学 术 机 构 也 开始 了 文本 挖掘 行动 ， 如 曼彻斯特 大 学 和 利物浦 大 学 合作 建立 的 国家 文本 控 掘 
中 心 ， 对 学 术 领 域 提供 了 定制 化 工具 、 研 究 设 备 及 对 学 术 团体 文本 挖掘 方面 的 建议 。 文 本 挖掘 首 
先 应 用 于 生物 和 生物 医学 领域 ， 现 在 已 经 扩展 到 社会 科学 领域 。 美 国 加 利 福 尼 亚 大 学 伯克利 分 
校 的 信息 学 院 正 在 研发 一 个 叫做 生物 文本 的 项 目 ， 在 生物 科学 研究 中 引信 利 用 文本 挖掘 和 分 析 
工具 。 

本 节 介 绍 了 文本 挖掘 在 不 同 领域 的 广泛 应 用 。 应 用 案例 5. 4 将 介绍 利用 文本 挖掘 技术 分 析 航 
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空 业 空气 摩擦 ， 从 而 提高 安全 性 的 应 用 。 











应 用 案例 5. 4 PIMA MT 


文本 挖掘 被 认为 是 从 数字 化 格式 存储 的 手写 资料 中 提取 出 有 用 的 信息 一 种 重要 工具 。 分 
析 家 利用 文本 挖掘 软件 运用 模式 识别 方法 研究 某 些 重要 领域 。 例 如 ， 航 空 公 司 用 文本 挖掘 技 
术 研 究 事故 报告 信息 ， 提 高 了 行业 的 知识 水 平 。 通 过 文本 挖掘 工具 可 以 及 时 地 研究 客观 的 、 
组 织 的 和 行为 方面 的 问题 。 

航空 公司 对 企业 的 运营 进行 彻底 、 系 统 的 分 析 。 一 旦 发 生 的 事情 能 够 引发 事故 的 话 就 
会 形成 一 个 事故 报告 文件 。 文 本 挖掘 技术 可 以 从 大 量 的 事故 报告 文件 中 识别 出 重要 的 问 
题 。 人 对 航空 公司 的 大 型 数据 库 的 理解 具有 局 限 性 ,计算 机 专业 术语 和 日 常 术 语 也 是 不 
同 的 。 

爱尔兰 航空 公司 (aerlingus. com) 通过 对 1998 年 1 月 到 2003 年 12 月 的 事故 报告 文件 
进行 分 析 ， 发 现 了 潜在 的 模型 并 找 出 模型 之 间 的 关系 。 爱 尔 兰 航空 公司 利用 Megaputer 公司 
(megaputer com) 的 综合 数据 和 文本 挖掘 工具 PolyAnalyst， 目 标 是 开发 出 一 个 能 够 通过 分 析 
事故 的 类 型 、 地 点 、 时 间 及 其 他 信息 来 发 现 模型 和 模型 之 间 关 系 的 程序 ， 该 程序 能 够 满足 研 
究 人 员 的 日 常 需要 。 

PolyAnalyst 找 出 事故 报告 文件 中 最 常用 的 术语 ， 并 形成 一 个 术语 词典 ， 虽 然 这 个 词典 不 
包含 全 部 的 术语 ， 但 它 可 以 作为 文本 分 析 一 个 有 价值 的 开端 。PolyAnalyst 也 可 以 从 数据 中 提 
取出 关键 术语 (或 者 这 些 术语 的 同义词 ) 。 这 样 就 形成 一 个 常见 术语 报表 (或 语义 表 ) ， 这 个 
报表 包含 了 术语 项 及 其 使 用 的 频率 ， 其 目的 是 识别 有 意义 的 术语 聚 类 。 一 个 叙述 性 概要 文件 
包含 了 一 系列 关键 词组 ， 根 据 这 些 关键 词 将 文件 分 成 不 同意 义 的 组 。 如 ， 泄 漏 这 个 关键 词 可 
能 和 食物 、 燃 料 、 化 学 药品 和 洗手 间 这 4 个 关键 词 有 联系 。 从 关键 词 角度 来 看 ， 在 语义 上 食 
物 和 咖啡 、 茶 或 饮料 有 联系 。 因 此 ， 食 物 作为 一 个 类 别 ， 将 和 泄漏 相关 的 不 同 的 产品 报告 归 
为 食物 类 别 。 

将 文本 挖 气 技 术 应 用 于 航空 公司 事故 报告 中 ， 可 以 找 出 改进 安全 性 能 的 因素 。 在 大 量 事 
故 报告 文件 中 ， 应 用 文本 挖 据 技术 可 以 验证 指定 的 理论 并 获取 一 般 常 识 性 知识 ， 同 时 还 能 获 
得 新 的 模式 并 将 其 添加 到 知识 库 中 。 

来 源 : J. Froelich,S. Ananyan,and D. L Olson, “Business Intelligence Through Text Mining,” Business intelligence Journal , 
| Vol. 10,NO. 1 ,2005 ,pp. 43 - 50. 

















5. 3 节 复 习题 


1. 列 出 并 简要 说 明文 本 挖掘 的 应 用 。 
2. ERE AMAT A, MAA CANE HER AR? 
3. 在 生物 医学 领域 文本 控 气 技术 有 哪些 应 用 前 景 ? 


5.4 文本 挖掘 过 程 


文本 挖掘 的 研究 需要 依靠 基于 最 佳 实践 的 坚实 方法 论 才 能 取得 成 功 。 一 个 标准 的 处 理 模 型 
是 跨行 业 数据 挖掘 过 程 标 准 CRISP-DM， 也 就 是 数据 挖掘 的 行业 标准 。 虽 然 跨行 业 数据 挖掘 过 程 
标准 基本 上 可 以 应 用 于 文本 挖掘 项 目 中 ， 但 是 还 需要 包括 复杂 数据 预 处 理 活 动 的 特殊 的 文本 控 
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掘 处 理 模型 。 图 5-4 描述 了 (Delen and Crossland, 2008) 文献 提出 的 一 个 典型 的 文本 挖掘 过 程 的 
顶层 语 境 图 。 这 个 语 境 图 展示 了 处 理 的 范 
E, 分 析 了 与 外 界 大 环境 的 接口 。 实 际 上 ， 
处 理 过 程 的 边界 可 以 明确 地 说 明文 本 挖掘 过 
程 中 所 包含 (或 不 包含 ) 的 内 容 。 

从 图 中 可 以 看 出 ， 这 个 基于 文本 的 知识 
发 现 过 程 的 输入 (和 和 矩形 框 左边 界 内 部 连接 
的 部 分 ) 包括 了 可 用 于 该 过 程 的 非 结 构 化 和 
结构 化 数据 的 收集 、 存 储 和 处 理 。 输 出 〈 和 拢 
形 框 右边 界 的 外 部 延伸 部 分 ) 的 是 用 于 决策 
支持 的 特定 知识 。 控 制 ， 也 叫 约束 (AE 





软 / 硬 件 限 制 
隐私 问题 
语义 约束 












非 结构 化 数据 “文本 
结构 化 数据 〈 数 据 库 ) 














框 顶部 连接 的 内 部 ) 包含 了 软 硬 件 的 要 求 、 工具 和 技术 
~ | 一 
隐私 问题 以 及 与 该 文本 处 理 过 程 相关 的 自然 
语言 的 表现 格式 。 机 制 (MEER 图 5-4 文本 挖掘 过 程 的 语 境 图 


的 内 部 ) 包括 适当 的 技术 、 软 件 工 具 和 专业 技能 。 文 本 挖掘 (包含 于 知识 发 现 上 下 文中 ) WE 
要 目的 是 对 非 结 构 化 (文本 型 ) 数据 (也 包括 和 相关 问题 有 关联 的 结构 化 数据 ) 进行 处 理 ， 挖 
掘 出 有 意义 的 可 用 的 内 容 ， 从 而 有 利于 决策 的 制定 。 

在 最 高 级 别 中 ， 文 本 挖掘 的 处 理 可 以 划分 为 3 个 连续 的 任务 ， 每 一 项 任务 都 要 求 特定 的 输入 
并 产生 固定 的 输出 (如 图 5-5)。 如 果 由 于 某 种 原因 ， 其 中 的 一 项 输出 不 是 用 户 所 希望 的 ， 就 要 
返回 到 上 一 个 步骤 的 执行 中 。 





任务 1 任务 2 任务 3 








陷 定 素材 :收集 和 组 
织 特定 领域 的 非 结 
化 数据 






创建 术语 文献 矩阵 
将 素材 结构 化 


















图 5-5 文本 挖掘 处 理 过 程 的 3 步 又 


5.4.1 任务 1: 确定 素材 


第 一 项 任务 的 主要 目的 是 收集 和 所 要 研究 的 内 容 ( 感 兴趣 的 领域 ) 相关 的 各 种 文献 ， 包 含 
文本 文件 、XML 文件 、 电 子 邮件 、 网 页 和 短 摘要 。 除 了 以 上 的 文本 型 数据 外 ， 音 频数 据 可 以 通 
过 语言 识别 程序 转化 ， 成 为 文本 数据 。 

收集 好 文本 数据 之 后 ， 要 将 这 些 文本 数据 转化 并 重新 组 织 为 相同 的 格式 〈 如 美国 信息 交换 
标准 代码 ASSCII 文本 文件 的 格式 ) ， 便 于 计算 机 处 理 。 文 件 的 组 织 形 式 可 以 看 做 是 存储 在 文件 夹 
中 的 数字 化 摘录 ， 或 者 是 某 个 特定 领域 的 网 页 链接 。 许 多 商用 的 文本 挖掘 工具 可 以 将 这 种 重组 
后 的 文件 作为 输入 ， 然 后 转换 为 一 个 平面 文件 以 便 处 理 。 或 者 ， 该 平面 文件 可 以 不 由 文本 挖掘 软 
件 生成 ， 将 它 作为 文本 挖掘 应 用 的 输入 。 
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5.4.2 任务 2: 创建 文献 术语 和 矩阵 


该 任务 是 利用 数字 化 的 组 织 好 的 文献 (语料库 ) 形成 文献 术语 矩阵 〈Term- Document Matrix, 
TDM). #£ TDM 矩阵 中 ， 行 代表 文献 ， 列 代表 术语 。 术 语 和 文献 之 间 具 有 标记 与 被 标记 〈 如 可 
以 用 术语 在 文献 中 出 现 的 次 数 来 表示 ) 的 关系 。 图 5-6 是 文献 术语 矩阵 的 一 个 典型 示例 。 
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任务 2 的 目标 是 将 一 系列 组 织 好 的 文献 (语料库 ) 转化 






















































为 TDM 和 矩阵， 矩阵 单元 格 中 是 合适 的 指数 。 假 设 前 提 是 文献 Bl | 
可 以 用 其 中 的 一 些 术 语 及 其 出 现 的 次 数 来 表示 。 所 有 的 术语 im 风 | 管 | 工 | 发 
在 表现 文献 内 容 上 都 同样 重要 吗 ? BER, 不是。 有 些 术 ai 
语 ， 如 冠 词 、 辅 助动词 以 及 语料库 中 几乎 所 有 的 文献 都 用 到 || 文档， 
的 术语 ， 没 有 重要 的 影响 。 因 此 ， 在 索引 过 程 中 应 该 把 这 些 文档 2 1 | 
词 排除 在 外 。 这 些 术语 一 般 叫 做 无 用 词 ， 而 且 这 些 词 在 某 些 文档 3 3 
特定 的 研究 领域 是 专业 的 ， 由 该 领域 的 专家 来 识别 。 另 一 方 xa | |1| | | 
面 ， 选 择 预先 定义 为 文献 索引 的 词 作 为 术语 (这些 术语 叫做 | | 文档 5 2 | 1 
包含 词 或 词典 )。 而 且 同 义 词 (被 看 做 相同 的 词 ) 和 专业 短 文档 6 1 I 
语 (如 埃菲尔 铁塔 ) 应 当 包 仿 到 这 些 术语 中 ， 这 样 索 引 项 就 

更 加 精确 。 图 5-6 一 个 简单 的 文献 术语 和 矩阵 


创建 索引 的 另外 一 种 过 滤 方 法 是 词 干 提取 ， 将 文献 中 的 词汇 进行 缩减 ， 从 而 得 到 词 干 ， 提 取 
词 干 的 时 候 ， 不 同 语法 格式 偏差 的 动词 被 认为 是 相同 的 词 。 如 ， 提 取 词 干 的 时 候 modeling 和 
modeled 都 看 做 是 model。 

第 一 代 TDM 矩阵 包含 了 语料库 中 除 无 用 词 之 外 所 有 术语 〈 作 为 列 ) ， 所 有 文献 〈 作 为 行 ) 
以 及 每 个 术语 在 文献 中 出 现 的 次 数 〈 单 元 格 的 值 ) 。 通 常情 况 下 ， 语 料 库 中 包含 了 大 量 的 文献 ， 
因此 TDM 和 矩阵 包含 大 量 的 术语 。 处 理 如 此 大 的 矩阵 需要 耗费 大 量 的 时 间 ， 更 重要 的 是 有 可 能 得 
不 到 正确 的 模式 。 因 此 ， 必 须 考虑 以 下 两 个 问题 : (1) 找 出 最 有 代表 性 的 指数 ; (2) 怎样 将 矩 
阵 的 大 小 减少 到 合适 的 规模 ? 

代表 性 的 指数 ”一旦 输入 的 文献 被 检索 并 计算 出 其 出 现 的 次 数 ， 那 么 就 要 做 一 些 额外 的 转 
换 工 作对 获取 的 信息 进行 总 结 和 聚集 。 原 词 出 现 的 次 数 反映 了 该 词语 在 一 个 文献 中 的 重要 性 
程度 。 尤 其 是 出 现 次数 多 的 词语 更 能 代表 文献 的 内 容 。 然 而 ， 假 设 词语 出 现 的 次 数 和 它 在 文 
献 中 的 重要 性 成 比例 是 不 合理 的 。 如 ， 一 个 词语 在 文献 A 中 出 现 了 一 次 ， 在 文献 B 中 出 现 了 3 
次 ， 不 能 表明 该 词语 在 文献 B 中 的 重要 性 是 文献 A 中 重要 性 的 3 倍 。 为 了 找 出 一 个 前 后 一 致 
的 TDM 矩阵 做 一 进步 的 分 析 ， 需 要 将 最 初 指数 标准 化 。 不 直接 用 词语 的 出 现 次 数 ， 而 是 用 一 
些 方 法 将 术语 与 文献 之 间 的 数值 表示 进行 标准 化 处 理 。 下 面 是 一 些 常 用 的 标准 化 处 理 方法 
(StatSoft ，2009 ) : 

。 对 数 频率 法 ”对 词语 出 现 的 次 数 取 对 数 ， 这 种 转换 会 减少 词语 出 现 的 次 数 ， 并 减 小 词语 

的 出 现 次 数 对 后 期 分 析 结 果 的 影响 。 

f(wf) = 1 +log(wf) (wf >0) 
AF, wf HRR (RRE) 出 现 的 次 数 ，f(wf) 是 取 对 数 的 结果 。 这 种 方法 适用 于 任何 
词语 出 现 次 数 大 于 0 的 术语 文献 矩阵 。 

。 二 进 制 频率 法 ”只 要 一 次 简单 的 转换 ， 这 种 方法 就 可 以 确定 一 个 词语 是 否 在 一 篇 文献 中 

出 现 过 。 
fof) =1 (wf > 0) 
这 个 计算 结果 用 1 和 0 来 确定 文献 中 出 现 和 未 出 现 的 各 个 词语 ， 而 且 这 种 方法 能 够 减少 
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原 词 出 现 频率 对 后 期 计算 和 分 析 的 影响 。 

© 逆 文 献 频 率 法 ”包含 同一 个 术语 出 现在 不 同文 献 的 频率 ( 记 为 d) 是 需要 仔细 考虑 ， 而 
且 这 对 更 深入 的 分 析 有 重要 影响 。 如 ， 词 语 猜想 可 能 在 所 有 的 上 下 文中 频繁 出 现 ， 而 软 
件 这 个 词 在 少数 的 几 个 文献 中 出 现 。 因 为 ， 不 管 什 么 主题 的 文献 中 都 有 可 能 做 出 各 种 
“猜想 ”， 而 软件 这 个 词 只 可 能 出 现在 和 计算 机 软件 相关 的 文献 中 。 一 个 既 考 虑 了 词语 的 
专业 性 (文献 出 现 的 次 数 ) ， 又 考虑 了 词语 出 现 频率 〈 某 个 术语 出 现 的 次 数 ) 的 方法 是 
逆 文 献 频率 法 ， 可 以 用 以 下 公式 表示 第 i 个 词语 和 第 j 篇 文献 的 转换 (Manning and 
Schutze, 2009) : 

0, WR wf, = 0 


(1 + log(wf,) log zF, UR uf, > | 


该 式 中 ，N 表示 所 有 文献 的 数目 ，df; 表示 包含 第 i 个 词语 的 文献 的 个 数 。 因 此 ， 该 公开 
可 以 通过 取 对 数 的 方式 减少 简单 词语 出 现 的 次 数 ， 并 且 如 果 每 个 文献 中 都 包含 同一 个 词 
语 ， 那 么 该 词语 的 权重 为 0 (也 就 是 log(NAN) =0)， 如 果 一 个 词 只 出 现在 一 个 文献 中 ， 
则 为 最 大 权重 (因为 log(N/1) =log(N))。 很 容易 看 着 这 种 转换 方法 是 如 何 通 过 词语 出 
现 的 相对 频率 它们 在 文献 分 析 中 的 语义 演变 这 两 个 方面 来 形成 指数 的 。 这 是 最 普遍 使 用 
的 一 种 方法 。 
减 小 矩阵 的 规模 ”因为 文献 术语 矩阵 规模 通常 很 大 ， 而 且 词 语 比较 分 散 (大 部 分 词语 出 
现 的 次 数 为 0) ， 所 以 “怎样 将 矩阵 的 规模 减 小 到 合适 的 大 小 ”成 为 一 个 重要 的 问题 。 下 
面 是 处 理 矩 阵 规模 的 几 种 方法 : 
。 专家 分 析 所 有 的 术语 ， 淘 汰 对 研究 内 容 意 义 不 大 的 词语 (这 是 一 个 手工 且 劳 动 强度 比较 
大 的 处 理 过 程 ) 。 
。 淘汰 只 在 少量 文献 中 出 现 而 且 出 现 次 数 很 少 的 词语 。 
e 用 奇异 值 分 解 (Singular Value Decomposition, SVD) 方法 对 和 矩阵 进行 处 理 。 
奇异 值 分 解 类 似 于 主 成 分 分 析 ， 将 矩阵 输入 〈 由 提取 的 术语 个 数 决定 的 文献 个 数 ) 的 规模 
减 小 到 较 小 的 维度 空间 中 ， 每 个 连续 的 维度 代表 变量 的 最 大 可 能 范围 ( 术语 和 文献 之 间 ) (Man- 
ning and Schutze ，2009) 。 理 想 情况 下 ， 研 究 人 员 确 定 两 三 个 包含 了 绝 大 多 词语 和 文献 变量 ( 差 
别 ) 的 主要 维度 。 一 旦 确定 了 矩阵 的 维度 ， 就 可 以 得 出 文献 所 包含 (讨论 、 描 述 ) 的 隐 含 主题 。 
特别 地 ， 和 矩阵 4 是 一 个 m xn 和 矩阵，m 指 输入 的 文献 个 数 ，n 指 分 析 中 用 到 的 术语 的 个 数 。 奇 异 
值 分 解 计算 出 正 交 和 矩阵 U =m xr, EXER Ven xr 和 正 交 和 矩阵 D=rxr， 因 此 4 =UDV', r 是 指 
ERE A'A 的 特征 值 。 


5.4.3 任务 3: 提取 知识 


利用 准备 好 的 术语 文献 矩阵 和 其 他 光 在 的 一 些 结构 化 的 数据 ， 就 可 以 从 大 量 的 专业 内 容 中 
挖掘 出 新 的 模式 。 主 要 的 知识 提取 方法 包括 : 分 类 、 聚 类 、 关 联 和 趋势 分 析 。 下 面 对 这 几 种 方法 
进行 简单 介绍 。 

分 类 ”对 复杂 的 数据 进行 知识 发 现 的 最 常见 的 方法 大 概 可 以 说 是 对 某 一 对 象 的 分 类 。 分 类 
是 指 将 给 出 的 数据 实体 分 为 不 同 的 类 别 〈 或 种 类 ) 。 在 文本 挖掘 中 叫做 文本 分 类 ， 也 就 是 利用 包 
含 文献 和 文献 分 类 的 数据 集 所 产生 的 模型 ， 从 已 有 的 分 类 〈 对 象 、 主 题 或 概念 ) 和 许多 文本 文 
献 中 找 出 正确 的 主题 〈 对 象 或 概念 ) 。 如 今 ， 自 动 化 的 文本 分 类 已 经 应 用 到 各 个 环境 中 ， 包 括 自 
动 化 或 半自动 化 〈 交 互 的 ) 创建 文本 索引 、 过 滤 垃 圾 邮件 、 根 据 分 级 目录 进行 网 页 分 类 、 自 动 
生成 元 数据 和 基因 检测 等 。 


idf(i,j) = | 
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文本 分 类 的 两 个 主要 方法 是 知识 工程 和 机 器 学 习 (Feldman and Sanger，2007) 。 知 识 工程 方 
法 是 将 有 关 分 类 的 专家 知识 ， 以 描述 的 形式 或 程序 分 类 规则 的 方式 编码 到 系统 中 。 机 器 学 习 方 
法 是 指 通过 学 习 一 系列 的 重新 分 类 示例 ， 利 用 一 个 普遍 适用 的 归纳 程序 创建 类 别 。 随 着 文献 的 
数量 呈 指 数 的 增加 ， 以 及 专家 很 难 掌握 所 有 的 知识 ， 所 以 这 两 种 方法 中 机 器 学 习 法 更 加 流行 。 

RE 聚 类 是 指 将 对 象 归 类 到 “自然 的 ”集合 的 一 个 无 监督 的 数据 处 理 方 法 。 和 分 类 相 比 ， 
聚 类 利用 预 归 类 训练 示例 的 数值 特征 创建 一 个 新 的 未 标签 组 ， 聚 类 将 未 标记 的 对 象 〈 例 如 ， 文 
献 、 顾 客 评语 、 网 页 ) 分 为 不 包含 以 前 知识 的 有 意义 的 集群 。 

聚 类 的 应 用 很 广泛 ， 从 文献 检索 到 实现 网 页 信息 搜索 都 应 用 到 聚 类 。 事 实 上 ， 聚 类 的 一 个 典 
型 应 用 是 对 大 量 的 文本 (如 网 页 ) 进行 分 析 和 导航 。 假 设 相 关 的 文献 比 不 相关 的 文献 更 具有 相 
似 性 ， 如 果 这 个 假设 成 立 ， 那 么 基于 内 容 相 似 性 的 文献 聚 类 就 可 以 提高 文献 搜索 的 有 效 性 
(Feldman and Sanger, 2007) : 

。 改进 搜索 查 全 率 ”由 于 聚 类 是 基于 相似 性 而 不 是 文献 的 单个 术语 ， 所 以 当 某 个 查询 和 一 

个 文献 相 匹配 时 ， 就 会 返回 整个 分 组 ， 因 此 聚 类 可 以 改进 搜索 查 全 率 。 

。 提高 搜索 的 准确 性 ” 聚 类 可 以 提高 搜索 的 准确 性 。 由 于 文献 的 数量 正 不 断 增 长 ， 所 以 从 
大 量 的 文献 中 找 出 和 搜索 相 匹配 的 文献 非常 困难 。 聚 类 可 以 将 相关 文献 分 为 数量 上 更 小 
的 组 ， 并 根据 文献 的 相关 性 进行 排序 ， 仅 返回 和 搜索 内 容 最 相关 的 组 。 

最 常见 的 两 种 聚 类 方法 是 分 散 / 收 集聚 类 和 查询 特定 聚 类 : 

。 分 散 / 收 集聚 类 ”对 于 不 能 得 到 一 个 明确 结果 的 搜索 ， 这 种 聚 类 方法 能 够 提高 人 们 查阅 
文献 的 效率 。 该 方法 动态 地 生成 一 个 文献 内 容 摘 要 列表 ， 而 且 这 个 列表 随 着 人 们 查阅 的 
内 容 不 同 而 自动 地 进行 调整 和 更 改 。 

。 查询 特定 聚 类 ”这 是 一 种 分 层次 的 聚 类 方法 ， 确 定 文献 的 相关 性 程度 ， 与 搜索 内 容 相关 
程度 最 大 的 文献 放 在 一 个 小 的 集群 中 ， 而 相关 程度 小 的 文献 放 在 一 个 大 的 集群 中 。 这 种 
方法 在 大 规模 的 文献 收集 方面 一 直 表 现 很 好 。 

关联 在 第 4 章 中 详细 介绍 了 关联 。 产 生 关联 规则 (或 解决 购物 篮 问 题 ) 的 主要 思想 是 找 
出 频繁 出 现 的 组 合 。 

在 文本 挖掘 中 ， 关 联 特 指 概念 (RE) 或 概念 集合 之 间 的 直接 关系 。 关 联 规则 ASC, AF 
了 两 个 概念 集 4 和 C， 这 个 关联 规则 可 以 用 支持 度 和 置信 和 度 这 两 种 方法 来 量化 。 置 信和 度 是 指 包含 
C 中 所 有 概念 的 文献 占 同一 文献 集中 包含 4 中 所 有 概念 的 文献 的 百分比 ， 支 持 度 是 指 包含 4 和 C 
两 个 概念 集中 所 有 概念 的 文献 百分比 (或 数量 ) 。 如 一 个 文献 库 中 ， 概 念 “软件 实施 错误 ”在 与 
“企业 资源 规划 ”和 “顾客 关系 管理 ”概念 相关 的 文献 中 频繁 出 现 ， 支 持 度 是 4% ， 置 信 度 是 
55% ， 这 说 明 有 4% 的 文献 同时 包含 这 3 个 概念 ， 而 且 包 含 “软件 实施 错误 ”的 文献 中 有 55% 的 
文献 也 包含 “企业 资源 规划 ”和 “顾客 关系 管理 ”这 两 个 概念 。 

关联 规则 的 数据 挖掘 用 来 分 析 网 络 文学 (发 表 在 网 络 上 的 新 闻 和 学 术 性 文章 ) 以 便 跟踪 禽 
流感 的 爆发 和 进展 情况 (Mahgoub et al. 2008)。 其 思路 就 是 要 从 地 理 区 域 、 硬 币 的 散布 和 对 策 
(处 理 ) 中 自动 识别 其 中 的 关联 关系 。 

趋势 分 析 文本 挖掘 中 的 趋势 分 析 基 于 这 样 的 思路 ， 各 种 类 型 的 概念 分 布 是 文献 汇集 的 功 
能 ， 也 就 是 说 对 同一 个 概念 集 ， 不 同 的 文献 汇集 导致 不 同 的 概念 分 布 。 因 此 ， 两 种 分 布 除了 来 自 
于 不 同文 献 的 之 外 其 他 条 件 都 相同 ， 可 以 对 这 两 种 分 类 进行 比较 。 这 种 分 析 方 法 的 显著 特点 是 
两 个 不 同 的 文献 集 都 来 自 于 同一 个 资源 〈 如 都 来 自 于 同一 个 学 术 期 刊 ) ， 但 是 文献 的 时 间 不 同 。 
Delen and Crossland (2008) 在 大 量 的 学 术 文章 (出 版 量 最 大 的 3 个 学 术 期 刊 ) 中 应 用 趋势 分 析 ， 
研究 一 些 重要 的 概念 在 信息 系统 领域 的 演变 。 

综 上 所 述 ， 文 本 挖掘 包含 各 种 方法 。 应 用 案例 5. 5 介绍 应 用 不 同 的 技术 对 大 量 文献 进行 分 析 。 
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应 用 案例 5. 5 ”文本 挖掘 在 文献 调查 研究 中 的 应 用 


研究 人 员 在 搜索 和 评审 相关 文献 时 ， 面 临 的 任务 量 和 复杂 性 越 来 越 大 。 要 想 对 相关 知识 
进行 拓展 ， 在 对 文献 中 承载 的 信息 进行 收集 、 组 织 、 分 析 和 吸收 方面 加 大 投入 是 非常 重要 
的 ， 特 别 是 研究 人 员 本 身 的 学 科 更 是 如 此 。 随 着 相关 领域 以 及 之 前 被 认为 不 相关 领域 的 重大 
研究 工作 的 深入 ， 研 究 人 员 要 想 进行 详尽 的 研究 ， 工 作 量 大 得 惊人 。 

在 新 领域 ， 研 究 人 员 的 工作 更 加 乏味 和 复杂 。 从 其 他 文献 中 查找 出 相关 知识 ， 特 别 是 需 
要 对 大 批量 出 版 的 文献 进行 手工 查询 是 非常 困难 甚至 是 不 可 能 的 。 即 使 利用 大 量 的 研究 生 或 
同事 来 查阅 所 有 的 相关 出 版 物 也 是 很 困难 的 。 

每 年 都 会 举行 许多 学 术 会 议 ， 作 为 会 议 当前 所 关注 的 知识 补充 ， 组 织 者 还 举办 小 型 探索 
和 研讨 会 。 许 多 情况 下 ， 这 些 增加 的 项 目 主要 是 向 参 会 者 介绍 相关 领域 的 重大 研究 方向 ， 以 
及 研究 感 兴趣 和 关注 的 “下 一 个 热点 ”。 确 定 下 一 个 小 型 探索 和 研讨 会 的 主题 通常 是 主观 决 
定 ， 而 不 是 依据 现 有 的 研究 。 

最 近 的 研究 中 ，Delen and Crossland (2008) 通过 利用 文本 挖掘 工具 实现 了 对 大 量 的 文献 
进行 半自动 化 分 析 ， 从 而 在 很 大 程度 上 提高 了 研究 人 员 的 效率 。 利 用 数字 图 书馆 和 在 线 搜索 
引擎 ， 用 户 可 以 从 管理 信息 系统 领域 的 3 个 主要 期 刊 中 下 载 到 所 有 有 用 的 文献 ， 这 3 个 期 刊 
包括 :《MIS Quarterly) (MISQ). Information System Research) (ISR) 和 《Journal of Manage- 
ment Information System) (JMIS)。 为 了 使 3 个 期 刊 保持 相同 的 时 间 间 隔 (进行 纵向 比较 研 
究 ) ， 将 期 刊 的 数字 出 版 物 发 表 时 间作 为 研究 的 开始 时 间 (如 , (Journal of Management Infor- 
mation System》 文献 从 1994 年 开始 有 数据 的 格式 ) 。 找 出 每 个 文献 的 标题 、 内 容 摘 要 、 作 者 、 
关键 字 、 卷 、 出 版 号 和 出 版 年 ， 然 后 将 文献 下 载 到 一 个 简单 的 数据 库 中 。 同 时 ， 数 据 集中 还 
包含 了 每 个 文献 的 期 刊 类 别 ， 以 便 用 于 差异 分 析 。 这 些 文 献 中 不 包含 编辑 附注 、 研 究 笔记 和 
文献 管理 状况 。 表 5-2 以 表格 的 形式 概括 了 文献 中 包含 的 信息 。 


表 5-2 数据 集中 的 项 目 列表 






标题 关键 词 摘要 



































MISQ A. Malhotra,| 供应 链 架 构 吸 知识 管理 、 供 应 链 、 频繁 的 价值 创新 
S. Gossain 和 | 收 能 力 : 资产 负 145 _187 | 吸收 能 力 、 组 织 间 信 | 使 得 供应 链 从 交易 
O. A. El Sawy | 债 的 合作 伙伴 使 息 系 统 、 架 构 方法 处 理 转 变 为 合作 伙 


知识 创造 市 场 
ISR 1999 | D. Robey 和 | ”信息 技术 在 
M. C. Boudtreau | 组 织 的 矛盾 应 
用 : 理论 指导 
和 方法 应 用 


伴 的 合作 手段 


165 - 185 组 织 变革 、 技 术 影 尽管 当前 认为 先 
响 、 组 织 理论 、 研 究 | 进 的 技术 在 组 织 变 
方法 论 、 组 织 凝 聚 力 、| 革 中 起 着 决定 性 的 
电子 交流 、 管 理 信 息 | 作用 ， 但 是 经 验 研 
系统 实施 ， 文 化 系统 “| 究 发 现 一 些 不 一 致 














的 决定 性 因素 。 本 

文 分 析 矛 盾 的 …… 

JMIS zo | R. Aron 和 信息 产品 质 65 -88 信息 产品 、 互 联网 当 产 品 〈 服 务 ) 
E. K. Clemon 量 投 资 和 信息 广告 、 产 品 定位 、 信 | 的 生产 商 不 能 够 满 

产品 自我 促销 号 传输 、 信 和 号 博弈 足 用 户 的 需求 时 ， 

投资 的 优化 他 们 就 要 考虑 广告 


平衡 | | 的 作用 …… 














在 分 析 阶 段 ，Delen 和 Crossland 用 文献 的 内 容 摘 要 作为 提取 信息 的 来 源 。 他 们 之 所 以 没 





| 有 选 主要 基于 以 下 两 个 原因 : (1) 正常 情况 下 ， 文 献 的 内 容 摘要 中 包含 了 关键 字 ， 如 果 利 用 
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关键 字 中 包含 的 词 进行 搜索 就 造成 了 重复 ， 这 样 做 没有 意义 ; (2) 作者 在 关键 词 中 使 用 的 是 
和 研究 内 容 相 关 的 词语 (并 不 一 定 是 文献 内 容 所 包含 的 词语 )， 所 以 用 关键 词 可 能 对 文献 的 
内 容 分 析 产 生 偏 差 。 

首先 ， 对 这 3 个 期 刊 进行 纵向 研究 (如 ， 随 时 间 的 变化 研究 内 容 的 变化 ) 。 为 了 进行 纵 
向 研究 ， 他 们 将 这 3 个 期 刊 12 年 (从 1994 年 到 2005 年 ) 的 文献 分 为 4 个 部 分 ， 每 个 部 分 包 
含 了 3 年 的 期 刊 。 这 样 ，12 个 相互 独立 的 数据 集 形 成 了 12 个 实验 组 。 对 这 12 个 数据 集 进行 
文本 挖掘， 从 每 个 数据 集中 文献 的 内 容 摘 要 中 提取 出 该 文献 中 最 具有 代表 性 的 术语 。 将 3 个 
期 刊 上 的 术语 按时 间 顺 序列 成 表 。 

其 次 ， 利 用 所 有 的 数据 集 (包含 3 个 期 刊 的 4 个 时 间 段 的 文献 ) 进行 聚 类 分 析 。 聚 类 可 
能 是 文本 挖掘 技术 中 最 常用 的 分 析 方 法 。 该 研究 用 聚 类 的 方法 将 文献 进行 自然 分 组 (将 它们 
分 到 不 同 的 组 中 ) ， 然 后 找 出 最 能 代表 每 个 分 组 的 术语 。 他 们 用 奇异 值 分 解 来 减 小 术语 文献 
给 阵 的 大 小 ， 然 后 用 最 大 期 望 值 算法 创建 分 组 ， 并 通过 实验 来 确定 最 佳 分 组 数 。 最 后 决定 将 
文献 分 成 9 个 组 ， 然 后 从 以 下 两 个 方面 对 这 些 分 组 进行 分 析 : (1) 期 刊 类 型 ( 见 图 5-7); 
(2) 时 间 。 目 的 是 找 出 这 3 个 期 刊 之 间 的 区 别 和 共同 点 以 及 这 些 组 之 间 的 区 别 ; 也 就 是 说 ， 
回答 了 “这 些 分 组 是 否 能 够 体现 出 每 个 期 刊 所 代表 的 研究 主题 的 不 同 ?” 以及“ 这些 分 组 之 
间 是 否 呈 现 了 随时 间 而 变化 的 特征 ?”。 它 们 利用 表格 和 图 解 的 表现 形式 发 现 和 分 析 了 多 个 有 
趣 的 模型 (更 多 信息 请 查看 Delen and Crossland, 2008). 

来 源 : D. Delen and M. Crossland,“ Seeding the Survey and Analysis of Research Literature with Text Mining,” Expert Sys- 

tems with Applications , Vol. 34 , NO. 3. 2008 , pp. 1707 — 1720. 
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图 5-7 用 9 个 聚 类 对 6 个 期 刊 文献 的 数量 进行 分 析 
来 源 : D. Delen and M. Crossland, “Seeding the Survey and Analysis of Research Literature with Text Minging ,” Expert Systems 
with Applications Vol. 34. No. 3 ,2008 , pp. 1707 - 1720. 
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5. 4 节 复 习题 


1. 文本 挖掘 的 主要 步 又 有 哪些 ? 

2. 将 词语 的 出 现 率 规范 化 的 原因 是 什么 ? 将 词语 出 现 率 规范 化 的 方法 有 哪些 ? 
3. 什么 是 单一 价值 分 解 ? 在 文本 挖掘 是 如 何 应 用 的 ? 

4. 从 资料 中 提取 知识 的 主要 方法 有 哪些 ? 


5.5 文本 挖掘 工具 


越 来 越 多 的 组 织 开 始 注意 到 文本 挖掘 的 价值 ， 软 件 厂 商 和 一 些 免费 的 文本 挖掘 工具 呈现 增 
长 的 趋势 。 下 面 是 按照 商业 软件 工具 和 免费 软件 工具 进行 分 类 的 一 些 流行 的 文本 挖掘 工具 。 


5.5.1 商业 软件 工具 


下 面 是 一 些 著 名 的 文本 挖掘 工具 ， 许 多 公司 在 它们 的 网 站 上 提供 了 产品 的 演示 版 本 。 

. ClearForest 提供 了 文本 分 析 和 可 视 化 工具 (clearforest. com), 

. IBM 智能 数据 挖掘 套件 ， 包 括 数据 和 文本 挖掘 工具 ， 现 如 今 已 经 完全 集成 到 IBM 的 InfoS- 
phere 数据 仓库 中 (ibm. com) 。 

. Megaputer 的 文本 分 析 提 供 了 自由 格式 的 文本 语义 分 析 、 概 括 、 聚 类 、 导 航 和 具有 重新 定 
位 动态 搜索 的 自然 语言 检索 (Megaputer com ) 。 

. SAS 的 文本 挖掘 提供 了 丰富 的 文本 处 理 和 分 析 工 具 (sas. com). 

. SPSS 的 文本 挖掘 工具 从 呼叫 中 心 记 录 、 博 客 、 邮 件 和 其 他 非 结 构 化 数据 中 提取 关键 概念 、 
观点 及 相互 之 间 的 关系 ,并 将 它们 转化 为 结构 化 的 格式 用 于 预测 模型 的 建 模 
(SPSS. com) 。 

. Statistica 的 文本 挖掘 提供 了 包含 可 视 化 功能 的 文本 挖掘 工具 (statsoft. com). 

. VantagePoint 提供 了 各 种 交互 图 形 视 图 和 分 析 工 具 ， 具 有 强大 的 从 文本 数据 仓库 空中 发 现 

知识 的 功能 (vpvp. com) 。 

Provalis Research 的 WordStart 分 析 模 型 实现 对 文本 信息 的 分 析 ， 如 开放 式 问 题 的 回复 和 采 


访 信 息 (provalisresearch. com) 。 


5. 5.2 免费 软件 工具 


一 些 免费 软件 工具 是 开源 的 ， 适 用 于 非 营利 组 织 : 

1. GATE 是 一 个 开源 文本 挖掘 工具 包 ， 具 有 免费 的 开源 框架 (或 SDK) 及 图 形 处 理 环境 
(gate. ac. uk), 

2. RapidMiner 的 社区 版 包括 文本 挖掘 模型 (rapid-i com), 

3. LingPipe 是 一 个 Java 编译 的 套件 ， 对 人 类 语言 进行 语义 分 析 (alias-i com) 。 

4. S-EM (Spy-EM) 是 一 个 文本 分 类 系统 ， 该 系统 通过 一 些 确定 的 未 标记 的 示例 进行 学 习 
(cs. uic. edu/ ~ liub/S- EM- download. html) 。 

5. Vivisimo/Clusty 是 一 个 网 络 搜索 和 文本 聚 类 引擎 (clusty. com) 。 


5. 5 节 复 习题 


1. 最 流行 的 文本 挖掘 工具 有 哪些 ? 
2. 为 什么 一 些 流行 的 文本 挖掘 工具 都 是 由 统计 公司 提供 的 ? 
3. 选择 一 个 免费 的 文本 挖 抉 工具 和 选择 一 个 商业 工具 的 利 次 各 有 哪些? 
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5.6 Web 挖 气概 述 


万 维 网 服务 (或 即时 网 络 ) 作为 一 个 十 分 庞大 的 数据 和 信息 库 ， 几 乎 存储 了 人 们 可 以 想象 
出 的 所 有 东西 。Web 可 能 是 世界 上 最 大 的 数据 和 文本 库 ， 它 里 面 存 储 的 数据 量 每 天 都 在 快速 地 
增长 着 。 在 网 上 人 们 可 以 发 现 许 多 有 趣 的 信息 : 谁 的 主页 链接 到 其 他 主页 了 ， 多 少 人 链接 到 了 某 
一 特殊 的 网 站 页 面 ， 以 及 一 些 独特 的 网 站 是 怎样 建立 的 。 另 外 ， 网 站 的 每 一 次 访问 ， 搜 索引 擎 的 
每 一 次 搜索 ， 任 何 链接 的 每 一 次 点 击 ， 电 子 商务 网 站 上 的 每 一 笔 业 务 处 理 等 ， 都 会 创造 出 更 多 的 
数据 。 虽 然 用 HTML 或 XML 编写 的 ， 以 网 页 源码 形式 存在 的 非 结 构 化 文本 数据 是 网 站 的 主要 内 
容 ， 但 网 络 上 也 包含 了 许多 超 链 接 信息 〈 链 接 到 其 他 网 页 ) 和 使 用 信息 〈 访 问 者 与 网 站 间 的 互 
动 记录 ) ， 这 些 信 息 都 为 知识 发 现 提供 了 丰富 的 数据 。 对 于 这 些 信 息 的 分 析 可 以 使 我 们 更 好 地 利 
用 网 站 ， 并 且 能 够 帮助 我 们 增强 与 网 站 访问 者 间 的 关系 ， 提 升 网 站 的 价值 。 

然而 ，Han 和 Kamber 在 2006 年 提出 ， 在 高 效 、 有 效 的 知识 控 气 方面， 网 络 也 面临 着 十 分 严 
峻 的 挑战 : 

。 对 于 高 效 的 数据 挖 据 来 说 网 络 还 是 过 于 庞大 ”网 络 是 如 此 的 庞大 、 成 长 的 如 此 迅速 ， 甚 
至 确定 网 络 的 大 小 都 十 分 的 困难 。 由 于 网 络 规模 的 急速 增长 ， 建 立 一 个 数据 仓库 用 来 复 
制 、 存 储 、 整 合 网 络 中 所 有 的 数据 是 不 可 行 的 ， 这 使 得 数据 收集 和 整合 成 为 了 一 个 极 大 
的 挑战 。 

网 络 太 复杂 ”一 个 网 页 的 复杂 性 远 远大 于 传统 的 一 页 文本 记录 。 网 页 缺乏 统一 的 结构 。 
网 页 包含 了 比 任何 书籍 、 文 章 或 者 其 他 传统 的 基于 文本 的 文献 都 丰富 很 多 的 自主 风格 创 
意 和 内 容 。 
。 网 络 动 态 性 过 强 ”网 络 是 一 个 动态 性 很 高 的 信息 源 ， 不 仅 网 页 增加 的 速度 快 ， 而 且 网 页 
内 容 更 新 的 也 很 频繁 。 网 页 上 的 博客 、 新 闻 、 股 市 结果 、 天 气 预报 、 体 育 信 息 、 价 格 、 
企业 广告 和 大 量 的 其 他 信息 都 在 不 停 地 更 新 。 
网 络 涉及 领域 广 网络 服 务 于 不 同 的 领域 ， 连 接 上 亿 个 工作 站 。 网 络 用 户 有 不 同 的 背景 、 
兴趣 和 应 用 目的 。 多 数 用 户 对 信息 网 络 结构 没有 清楚 地 认识 ， 当 他 们 想 搜索 到 自己 想 要 
的 信息 时 ， 可 能 会 遇 到 许多 困难 。 
。 网 络 包容 万 象 ” 对 某 些 用 户 (REEMA) 来 说 ， 网 页 上 的 信息 只 有 小 部 分 是 和 自己 相 
关 的 或 有 用 的 。 据 说 对 99% 的 用 户 来 说 ， 有 99% 的 信息 是 没 用 的 ， 我们 有 可 能 不 能 很 明 
显 地 感觉 出 这 种 现象 ， 但 是 一 般 用 户 只 会 对 网 页 上 的 小 部 分 信息 感 兴趣 ， 而 且 其 他 的 信 
息 会 对 用 户 产 生 困扰 。 找 出 和 某 些 用 户 或 某 些 应 用 相关 的 内 容 是 网 络 搜索 中 一 个 重要 的 
问题 。 

以 上 问题 促进 了 研究 人 员 对 如 何 提高 网 页 上 的 数据 集 挖 掘 和 应 用 的 有 效 性 和 效率 的 研究 。 
许多 基于 索引 的 网 络 搜索 引擎 可 以 对 网 络 上 的 信息 进行 搜索 ， 并 根据 关键 词 索引 到 相应 的 网 页 。 
利用 这 些 搜索 引擎 ， 一 些 经 验 丰 富 的 用 户 根据 重要 的 关键 词 或 词组 得 到 自己 想 要 的 文献 。 然 而 ， 
基于 简单 关键 词 的 搜索 引擎 也 存在 一 些 问题 。 首 先 ， 任何 一 个 主题 可 能 和 成 千 上 万 的 文献 相关 ， 
这 样 搜索 引擎 就 会 返回 给 用 户 大 量 的 文献 ， 而 只 有 少量 的 文献 和 用 户 真正 想 要 的 相关 。 其 次 ， 和 
用 户主 题 相关 的 文献 可 能 不 包含 用 户 使 用 的 关键 词 。 和 网 页 关键 词 搜索 引擎 相 比 ，Web 挖掘 是 
一 个 从 本 质 上 提高 网 页 搜索 引擎 的 优秀 的 〈 和 更 有 挑战 性 的 ) 方法 ， 因 为 Web 挖掘 可 以 鉴别 出 
可 靠 的 网 页 ， 对 网 页 文献 进行 分 类 ， 以 及 解决 网 络 搜索 引擎 中 有 歧义 或 细微 差别 的 问题 。 

Web 挖 据 (或 Web 数据 挖掘 ) ”是 指 从 Web 数据 中 挖掘 出 本 质 关 系 〈 例 如 ， 用 户 感 兴趣 的 
和 有 用 的 信息 ) 的 过 程 ， 这 些 Web 数据 通常 表现 为 文本 信息 、 链 接 信息 或 使 用 信息 。Web 挖 握 
一 词 首次 由 Etzioni (1996) 提出 ， 现 如 今 ， 许 多 会 议 、 期 刊 和 书 中 涉及 Web MHA. Web i 
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掘 通常 应 用 于 技术 和 商业 领域 。 图 5-8 是 Web 挖掘 的 涉及 的 3 个 主要 领域 : Web ARI. Web 
结构 挖掘 和 Web 使 用 挖掘 。 








Web 内 容 挖掘 来 源 : 网 页 Web 结 构 挖掘 来 源 : 网 Web 使 用 挖掘 来 源 : 网 站 
上 的 非 结构 化 的 文本 多 访问 者 的 详细 信息 
(通常 是 HTML 格 式 ) 的 链接 (一 段 时 间 内 链接 的 网 页 ) 
















图 5-8 3 个 主要 的 Web 挖掘 领域 


5. 6 节 复 习题 


1. Web 知识 控 气 面临 的 主要 问题 有 哪些 ? 
2. 什么 是 Web 挖掘 ? 和 传统 的 数据 挖 气 有 什么 区 别 ? 
3. Web 挖掘 涉及 到 的 3 个 主要 领域 是 什么 ? 


5.7 Web ABH HAM Web 结构 挖掘 


Web 内 容 挖掘 是 指 从 网 页 上 提取 出 有 用 的 信息 。 由 于 网 页 上 的 文件 资料 是 机 器 可 读 的 ， 所 
以 就 能 利用 自动 化 的 工具 获取 网 页 上 的 信息 。 网 络 息 虫 能 够 自动 地 阅读 网 页 上 的 信息 ， 这 些 信 
息 包含 了 类 似 文本 挖掘 中 用 到 的 文献 特征 ， 但 其 中 也 包含 了 其 他 一 些 概 念 ， 如 文献 的 层次 结构 。 
Web 内 容 挖掘 能 够 提高 搜索 引擎 的 效果 。 如 ，Turetken and Sharda (2004) 提出 了 一 个 可 视 化 的 
系统 ， 该 系统 阅读 搜索 引擎 谷歌 结果 中 的 前 100 个 文件 ， 利 用 IBM 的 智能 文本 挖掘 工具 对 这 些 
文件 进行 聚 类 分 析 ， 并 将 结果 以 图 表 的 格式 展示 出 来 。 

除了 文本 信息 ， 网 页 还 包含 了 超 链接 ， 实 现 从 一 个 网 页 链接 到 另 一 个 网 页 上 ， 超 链接 包含 了 
许多 隐藏 的 信息 ， 这 些 信 息 可 帮助 自动 推断 出 权威 的 概念 。 如 果 一 个 网 页 开发 人 员 将 网 页 链接 
到 其 他 网 页 ， 链 接 页 可 以 看 做 是 其 他 网 页 的 授权 页 。 通 过 一 个 网 页 被 不 同 开发 人 员 链 接 的 次 数 ， 
就 可 以 看 出 该 网 页 的 重要 性 并 能 够 对 授权 网 页 进行 挖 气 (Miller，2005) 。 因 此 ， 大 量 的 网 页 链接 
信息 提供 了 网 页 信息 的 相关 性 、 质 量 和 网 页 内 容 的 结构 ， 也 是 Web 挖掘 一 个 丰富 的 资源 。 

在 网 页 上 搜索 一 个 特殊 主题 时 ， 只 能 得 到 少量 的 相关 的 高 质量 的 网 页 ， 大 部 分 网 页 都 是 没 
用 的 。 利 用 以 上 的 授权 式 网 页 的 形式 (或 其 他 的 办 法 ) 能 够 提高 搜索 结果 的 质量 并 将 这 些 结果 
进行 排列 。 这 种 授权 (或 授权 式 网 页 ) 的 思想 源 于 较 早 的 信息 检索 工作 ， 该 工作 利用 期 刊 文献 
的 引文 来 评价 研究 论文 的 意义 〈Miller，2005 ) 。 尽 管 网 页 链接 采用 了 这 个 原始 的 思想 ,但 是 研究 
论文 引文 和 网 页 超 链 接 之 间 有 很 大 区 别 。 首 先 ， 并 不 是 所 有 的 网 页 都 用 签注 的 形式 进行 超 链接 
(有 些 用 导航 条 或 付费 广告 的 形式 实现 链接 )。 但 是 ， 如 果 大 部 分 网 页 用 签注 的 形式 进行 超 链接 ， 
这 种 原始 的 思想 就 会 被 接受 。 其 次 ， 由 于 商业 竞争 ， 一 个 网 页 的 链接 很 少 会 链接 到 相同 领域 的 竞 
争 对 手 的 网 页 上 。 如 ，Microsoft 公司 不 可 能 将 自己 的 网 页 链接 到 Apple 公司 网 页 上 。 最 后 ， 授 权 
网 页 上 的 信息 很 少 是 描述 性 的 信息 ， 如 Yahoo! 的 主页 上 的 信息 不 包含 直接 描述 性 的 信息 ， 而 是 
一 个 网 页 搜索 引擎 。 

网 络 超 链接 的 结构 引出 了 另外 一 个 叫做 中 心 的 一 类 重要 网 页 ， 中 心 网 页 是 指 某 个 或 某 些 可 
以 链接 到 其 他 各 个 授权 网 页 的 超 链接 集合 。 虽 然 中 心 网 页 可 能 不 是 很 显著 ,该 页 上 仅 包 含 少数 
的 几 个 链接 , 但 是 它 提供 了 该 领域 内 用 户 感 兴趣 的 各 种 链接 信息 。 一 个 中 心 网 页 可 能 链接 个 人 
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主页 ， 也 可 能 是 某 个 课程 网 页 推荐 的 参考 文献 ， 或 者 是 关于 某 个 话题 的 专业 性 资料 ， 中 心 网 页 起 
到 隐 含 对 链接 目标 领域 授权 的 作用 。 实 际 上 ， 一 个 好 的 中 心 网 页 与 被 链接 的 网 页 之 间 存 在 着 相 
互 依存 的 关系 ， 一 个 中 心 之 所 以 是 好 的 ， 是 因为 它 链 接 到 许多 好 的 授权 网 页 ， 而 一 个 好 的 授权 网 
页 之 所 以 好 ， 是 因为 它 被 许多 好 的 中 心 链接 到 。 它 们 之 间 的 这 种 关系 使 得 从 网 页 上 自动 检索 到 
高 质量 的 信息 成 为 可 能 。 

一 个 最 熟悉 和 经 常 被 提 到 的 计算 中 心 和 授权 网 页 之 间 的 算法 叫做 超 链接 主题 搜索 (Hyper- 
link-Induced Topic Search，HITS) ， 该 算法 最 初 由 Kleinberg (1999) 提出 ， 后 来 许多 研究 人 员 对 
它 进行 了 改进 。HITS 是 一 个 利用 网 页 里 的 超 链 接 信息 来 评价 网 页 的 链接 分 析 算法 。 在 网 络 搜索 
中 ，HITS 算法 为 某 个 特定 的 查询 找到 基本 的 文献 集 。 然 后 对 每 个 文献 的 链接 权威 度 和 内 容 权威 
度 进 行 回归 分 析 。 将 这 些 基 本 文献 集 集中 起 来 ， 就 可 以 实现 从 一 个 搜索 引擎 中 获得 某 个 查询 的 
最 基本 的 集合 。 对 每 个 被 检索 文献 来 说 ， 原 始 文献 和 该 文献 所 连接 到 的 文献 都 被 添加 到 文献 集 
中 。 对 这 些 文献 鉴定 进行 回归 分 析 和 链接 分 析 ， 直 到 链接 权威 度 和 内 容 权威 度 两 个 权 值 聚集 到 
一 点 。 根 据 这 些 权 值 对 某 个 特定 查询 的 文献 制定 索引 并 按 重要 性 进行 排序 。 

Web 结构 挖掘 是 指 从 网 络 文件 中 的 关联 关系 中 挖掘 出 有 用 信息 的 过 程 。 用 于 确定 权威 网 页 
和 中 心 网 页 ， 是 网 页 质量 排名 算法 的 基础 ， 该 排名 是 一 些 重 要 搜索 引擎 (如 Google 和 Yahoo! ) 
的 核心 竞争 力 。 仅 看 链接 到 一 个 网 页 的 情况 就 可 以 看 出 这 个 网 页 的 知名 度 (或 权威 性 ) ， 通 过 网 
页 内 的 链接 (或 整个 网 站 ) 情况 可 以 看 出 该 网 页 上 对 某 个 话题 的 分 析 的 深度 。 对 于 分 析 大 量 网 
页 之 间 的 关联 关系 来 说 链接 是 一 个 重要 的 分 析 方 法 ， 能 够 帮助 用 户 更 好 地 理解 某 个 特定 社区 网 
页 、 网 络 群 体 或 网 络 团体 内 的 关系 。 应 用 案例 5. 6 讲述 了 一 个 借助 Web 内 容 挖掘 和 Web 结构 挖 
掘 来 更 好 分 析 美 国 极端 主义 群体 内 部 联系 的 事例 。 





应 用 案例 5. 6 ”网 络 追捕 


我 们 一 般 从 当前 的 外 部 环境 中 搜索 相关 问题 的 答案 ， 然 而 ， 在 搜索 答案 的 过 程 中 我 们 通 
常 遇 到 许多 问题 。 在 处 理 全 球 恶 怖 分 子 问题 上 上， 通常 一 些 本 国 的 丽 怖 分 子 组 织 被 忽视 。 其 
实 ， 本 国 的 枣 怖 分 子 对 美国 的 威胁 更 大 ， 因 为 他 们 了 解 更 多 的 本 国信 息 ， 而 且 他 们 的 规模 在 
不 断 壮大 ， 通 过 网 络 他 们 能 够 找到 国外 的 其 他 涉 怖 分 子 组 织 。 

在 网 络 上 对 相关 内 容 实施 有 效 的 监视 是 很 困难 的 ， 研 究 人 员 和 权威 人 士 需 要 更 先进 的 工 
具 对 这 些 丽 怖 分 子 组 织 进行 分 析 和 监控 。 在 国家 安全 部 门 和 其 他 政府 机 构 的 帮助 下 ， 亚 利 又 
那 大 学 的 研究 人 员 研 发 了 一 种 Web 挖 据 方 法 ， 该 方法 依靠 因特网 来 发 现 和 分 析 本 国 的 丽 怖 分 
子 组 织 的 网 站 。 恶 怖 分 子 组 织 通过 因特网 进行 交流 、 访 问 个 人 信息 并 进行 在 线 筹 集资 金 。 

该 方法 首先 搜集 重要 悉 怖 分 子 成 员 和 屎 怖 组 织 网 站 ， 再 利用 超 链接 连接 到 其 他 的 枣 怖 分 
子 和 丽 怖 组 织 网 站 。 与 其 他 网 站 的 相互 连接 是 估算 各 个 群体 的 目标 相似 性 的 一 个 重要 因素 。 
下 一 步 是 进行 内 容 分 析 ， 这 是 在 基本 属性 (Hl, RAGA. HK. EREA) 分 析 基 础 
上 ， 对 这 些 网 站 进行 进一步 概括 。 

基于 链接 分 析 和 内 容 分 析 ， 研 究 人 员 已 经 获得 了 97 个 美国 丽 怖 分 子 组织 和 仇恨 群体 的 网 
站 。 通 常 ， 从 这 些 组 织 之 间 的 相互 链接 上 ， 看 不 出 任何 合作 关系 。 然 而 ， 每 个 组 织 之 间 的 链 
接 关 系 能 帮助 研究 人 员 找 出 在 同一 领导 下 的 组 织 。 更 深层 次 的 数据 挖掘 研究 用 于 解决 全 球 性 
问题 ， 找 出 全 球 的 恐怖 分 子 组 织 和 美国 刺 怖 分 子 组 织 之 间 的 联系 。 

来 源 : Based on Y. Zhou, E. Reid, J. Qin, H. Chen, and G. Lai," U. S. Domestic Extremist Groups on the Web; Link 

and Content Analysis," JEEE Intelligent Systems, Vol. 20, No.5, September/October 2005, pp. 44 - 51. 
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5. 7 节 复 习题 


1. 什么 是 Web NAH? Web 内 容 挖掘 和 文本 挖掘 有 什么 区 别 ? 

2. 什么 是 Web 结构 控 掘 ? 说 明 Web 结构 挖掘 和 Web 内 容 挖掘 的 区 别 。 
3. Web 结构 挖掘 的 目的 是 什么 ? 

4. 什么 是 链接 权威 度 和 内 容 权威 度 ? 什么 是 HITS 算法 ? 


5.8 Web 使 用 挖 据 


Web 使 用 挖 握 是 指 从 网 页 访问 和 交易 中 产生 的 数据 中 提取 出 有 用 的 信息 的 过 程 。Masand et 
al. (2002) 指出 ， 网 页 访问 产生 的 数据 至 少 有 以 下 3 种 类 型 : 

1. 存储 在 服务 器 上 的 访问 日 志 、 引 用 日 志 、 代 理 日 志和 客户 端 文字 信息 。 

2. 用 户 特征 。 

3. 元 数据 ， 如 网 页 属性 、 内 容 属 性 和 使 用 数据 。 

分 析 Web 服务 器 上 的 信息 可 以 帮助 我 们 更 好 地 理解 用 户 的 行为 特征 ， 这 种 分 析 叫 做 点 击 流 
量 分 析 。 通 过 利用 数据 挖掘 和 文本 挖掘 技术 ,企业 可 以 从 点 击 流量 中 挖掘 出 有 用 的 模型 。 如 ， 可 
以 了 解 到 有 60% 的 用 户 在 搜索 “ 毛 伊 岛 宾 馆 ” 之 前 搜索 7“ 飞 向 毛 伊 岛 的 航线 ”"。 这 种 信息 能 
够 帮助 企业 决定 如 何 放置 广告 。 点 击 流量 分 析 还 能 够 帮助 我 们 了 解 用 户 的 访问 时 间 。 例 如 ， 一 个 
企业 认识 到 有 70% 的 用 户 下 载 软件 的 时 间 是 从 晚上 7 点 到 11 点 ， 这 样 企业 可 以 在 这 段 时 间 里 提 
供 更 好 的 客户 服务 和 更 好 的 网 络 带宽 。 图 5-9 解释 了 从 点 击 流量 数据 中 获取 知识 和 将 知识 用 于 改 
善 服务 、 改 善 网 页 质量 的 过 程 ， 更 重要 的 是 提高 客户 价值 。Nasraoui (2006) 指出 了 Web 挖掘 的 
应 用 : 



































1. 决定 客户 终身 价值 。 
2. 制定 产品 市 场 战略 。 
3. 评估 促销 宣传 。 
4. 根据 用 户 的 访问 类 型 制定 电子 广告 和 优惠 券 。 
5. 基于 之 前 的 学 习 规 则 和 用 户 特征 预测 用 户 的 行为 。 
6. 基于 用 户 的 兴趣 和 特征 ， 向 用 户 提供 动态 信息 。 
数据 预 处 理 
搜集 
合并 
结构 化 
ah E “识别 用 户 
. 识别 网 页 
= . 识别 访问 信息 
如 何 提高 数据 质量 
如 何 提高 网 页 质量 。 
| 如 何 增加 客户 价值 














图 5-9 从 网 页 使 用 记录 中 提取 知识 的 过 程 


Amazon. com 提供 了 一 个 动态 改变 网 页 使 用 记录 的 例子 。 一 个 已 注册 的 用 户 再 次 访问 Ama- 
zon 网 页 时 ， 会 显示 欢迎 用 户 的 信息 。 这 是 一 个 通过 客户 使 用 记录 ( 如 计算 机 网 站 写 在 用 户 计算 . 
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机 上 一 个 简单 的 文件 ) 来 识别 用 户 特征 的 一 个 简单 应 用 。Amazon. com 还 提供 了 一 个 根据 以 前 
的 购买 记录 ， 或 与 该 用 户 购买 记录 相近 的 其 他 用 户 的 关联 分 析 ， 为 用 户 提供 个 性 化 的 可 选择 的 
产品 列表 。 而 且 在 短 时 间 内 提供 “优惠 产品 ” 。 这 些 推荐 都 是 通过 对 客户 的 分 析 ， 以 及 用 户 以 前 
的 购买 行为 进行 聚 类 、 序 列 模型 挖掘 、 关 联 和 其 他 数据 、 文 本 挖掘 技术 分 析 而 得 出 的 结论 。 

表 5-3 列 出 了 一 些 重要 的 Web 挖掘 产品 。 


表 5-3 Web 使 用 挖掘 软件 
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产品 名 称 | 产品 介绍 URL 
Angoss Knowledge WebMiner 包括 ANGOSS Knowledge STUDIO angoss. com 
和 点 击 流量 分 析 
ClickTrack 可 以 在 网 站 上 显示 用 户 类 型 | Glicktracks. com 
LiveStats from DeepMetrix 实时 日 志 分 析 ， 提 供 在 线 Demo deepmetrix. com 
Megaputer WebAnalyst 数据 和 文本 挖掘 应 用 megaputer com/products/wm. php3 
MicroStrategy Web Traffic Anal- 网 址 流量 、 内 容 分 析 和 Web 访问 Applications/WTAM 
ysis Module 分 析 报 告 | 
SAS Web Analytic 网 站 流量 分 析 sas. com/ solutions/ webanalytics/ 
SPSS Web Mining for Clemen- Web 事件 挖掘 spss. com/web_mining_for_clementine 
tine 
WebTrends _| 网 站 流量 信息 的 数据 挖掘 | webtrends. com 
XML Miner 利用 模糊 逻辑 专家 系统 规则 对 scientio. com 
XML 文件 中 的 数据 和 文本 信息 进行 
挖掘 的 系统 和 类 库 a 
5. 8 节 复 习题 


1. 解释 Web 使 用 挖掘 。 

2. 在 电子 商务 环境 下 ，Web 使 用 控 据 的 应 用 有 哪些 ? 

3. 什么 是 点 击 流量 数据 ? 为 什么 点 击 流量 数据 在 Web 使 用 挖掘 中 非常 重要 ? 

4. 当 用 户 访 问 一 个 网 页 并 进行 交互 性 的 活动 时 ，Web 服务 器 收集 了 哪些 信息 类 型 ? 
5. 了 解 电子 商务 网 站 应 用 Web 使 用 挖掘 在 提升 客户 价值 中 所 发 挥 的 作用 。 


5.9 Web 挖掘 的 成 功 实例 


Ask. com (ask.com) 是 一 个 知名 的 搜索 引擎 网 站 。Ask. com 认为 它 能 成 功 的 基本 因素 在 于 
它 能 提供 更 好 的 搜索 结果 的 能 力 。 然 而 ， 严 格 用 数量 指标 (如 点 击 率 、 抛 弃 和 搜索 频率 ) 对 搜 
索 的 结果 进行 评估 几乎 是 不 可 能 的 ， 要 有 更 好 的 数量 和 质量 指标 。Ask. com 以 定期 地 向 它 的 观众 
调查 问卷 的 方式 ， 用 数量 和 质量 混合 的 指标 作为 关键 绩效 指标 ， 如 “用 户 声称 找到 了 要 找 的 东 
西 的 百分比 ”",“ 用 户 想 再 次 使 用 该 网 站 的 百分比 ”和 “无 效 搜索 结果 的 百分比 ”" ， 以 及 开放 式 客 
户 对 用 户 体验 评估 的 质疑 。 利 用 收集 到 的 数量 和 质量 两 个 方面 的 数据 ，Ask. com 进行 了 “Ask 
3D” 设 计 ， 尽 管 在 测试 中 ， 新 设计 和 旧 设 计 在 纯粹 的 数量 分 析 结 果 上 没有 区 别 。 

Scholastic. com (scholastic.com) 是 一 个 专门 提供 儿童 教育 书籍 的 网 上 书店 ， 该 书店 发 现 
很 多 用 户 很 难 决定 是 否 购买 书籍 。 书 店 想 知道 的 关键 问题 是 “我 们 哪儿 做 错 了 ?”“ 为 什么 这 些 
顾客 不 购买 书籍 ?” 以 及 最 终 “怎样 才能 留 住 这 些 顾客 ?” 数 据 分 析 结 果 表 明 网 站 上 可 能 不 包含 
用 户 查 找 的 书籍 的 书 名 。 如 ， 客 户 想 从 Scholastic 的 网 站 上 查找 出 他 们 几 十 年 前 读 过 的 书 ， 前 提 
是 以 为 Scholastic 仍然 还 有 这 些 书 。 书 店 通过 分 析 用 户 的 这 种 需求 ， 找 出 这 些 对 不 再 出 版 书籍 进 
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行 搜索 的 用 户 的 行为 ， 确 定 未 被 满足 的 客户 的 数量 和 对 以 后 客户 购买 行为 所 造成 的 影响 。Scho- 
lastic 开始 在 网 页 上 加 上 这 些 较 老 的 书籍 目录 ， 如 果 用 户 需 求 的 这 些 书籍 不 再 出 版 ， 就 会 发 邮件 
通知 客户 并 对 这 些 客户 进行 登记 。 最 终 ， 收 到 邮件 的 客户 中 有 35% 的 客户 买 到 了 他 们 想 要 的 
书籍 。 

St. Jone Health System 是 一 个 拥有 8 个 医院 和 125 个 医疗 站 点 和 3 000 名 医生 的 保健 系统 ， 它 
的 CRM 系统 中 有 110 万 客户 。St. Jone 网 站 对 业务 处 理 的 满意 数据 进行 追踪 ， 如 用 户 通过 在 线 注 
册 的 方式 了 解 自 己 健康 状况 并 访问 医生 ， 网 站 对 这 些 新 注册 用 户 进行 登记 ， 从 而 了 解 有 多 少 用 
户 是 新 注册 的 。 尽 管 保健 行业 的 现状 是 市 场 竞 争 压 力 大 、 客 户 总 数量 呈 下 降 趋势 ， 但 St Jone 却 
发 现 新 用 户 的 增长 率 是 15% ， 并 将 四 分 之 一 的 投资 回报 资金 用 于 改善 网 站 的 满意 度 。 这 一 成 功 
事例 表明 作为 组 织 的 领导 人 员 ， 应 将 在 线 客户 的 满意 度 作为 包括 全 方位 价值 的 一 个 关键 绩效 指 
标 。 但 St Jone 通过 对 网 站 上 的 数据 进行 分 析 ， 制 定 了 促使 用 户 进 入 网 站 的 广告 策略 ， 优 先 资助 
提高 客户 满意 度 的 跨 部 门 合作 项 目 ， 并 将 客户 的 呼声 作为 企业 决策 的 核心 问题 。 

像 Ask. com, Scholastic 和 St. Jone Health System 这 些 有 远见 的 公司 ， 利 用 Web 挖掘 工具 回答 
了 以 下 几 个 关键 问题 :“ 谁 “为 什么 ”和 “怎么 "。 综 上 所 述 ， 有 效 地 集成 这 些 系统 是 很 重要 
的 ， 既 能 增加 财务 增长 ， 又 能 提高 顾客 的 忠诚 度 和 满意 度 。 

如 果 要 持续 增加 自己 的 广告 资金 投入 、 资 源 ， 或 许 最 重要 的 是 顾客 访问 网 站 的 渠道 ， 企 业 管 
理 者 相信 ， 利 用 观察 顾客 历史 行为 的 Web 挖掘 技术 比 靠 自 己 的 直觉 、 预 感 和 猜测 更 重要 。 应 用 
案例 5. 7 讲述 了 一 个 网 络 最 优化 的 案例 。 





应 用 案例 5. 7 网 络 最 优化 生态 系统 


似乎 网 络 上 的 任何 东西 都 会 被 测量 一 一 每 一 次 点 击 可 以 被 记录 ， 每 一 个 场景 都 可 以 被 捕获 ， 
每 一 次 访问 都 被 用 于 分 析 一 一 这 些 记录 都 可 以 帮助 企业 实现 网 站 最 优化 。 不 幸 的 是 ， 用 在 线 的 方 
法 实现 “无 限 可 测 性 ”和 “自动 最 优化 ”是 非常 复杂 的 。 假 设 每 次 应 用 Web 挖 气 技 术 提 供 重要 的 
范围 见解 ， 需 要 理解 网 站 访问 者 行为 可 能 是 欺诈 的 并 具有 潜在 风险 。 理 想 情 况 下 ， 对 用 户 访问 行 
为 的 整体 观察 是 需要 的 ， 这样 可 以 捕获 到 定量 和 定性 的 数据 。 本 节 中 介绍 的 这 些 有 远见 的 企业 
(如 ，Ask com, Scholastic. com 和 St. Jone Health System) 已 经 致力 于 捕获 和 分 析 网 站 访问 者 的 整 
个 访问 过 程 的 记录 ， 这 上 既 增 加 了 企业 的 收益 也 提高 了 客户 的 患 诚 度 和 满意 度 。 

据 Peterson (2008) 介绍 ， 可 以 用 两 个 坐标 轴 描 述 数 据 属性 及 如 何 使 用 数据 ， 从 而 达 
到 优化 网 站 的 目的 。 一 个 轴 表 示 数 据 和 信息 ， 数 据 被 定量 化 ， 信 息 被 定性 化 。 另 一 个 坐标 
轴 是 度量 值 和 行动 ; 产生 行动 的 度量 值 报表 、 分 析 和 推荐 措施 ; 网 站 流程 的 实际 改变 ， 市 
场 营销 的 最 优化 。 这 些 维度 产生 的 每 一 个 象限 利用 不 同 的 技术 产生 不 同 的 输出 结果 ， 就 像 
一 个 生态 系统 ， 每 一 个 技术 都 和 其 他 技术 相互 作用 ， 从 而 对 整个 网 络 环境 产生 影响 (LA 
5-10) 。 

多 数 人 认为 网 站 最 优生 态 系统 取决 于 上 日志、 语法 分 析 和 对 网 站 访问 者 点 击 流量 行为 的 记 
载 能 力 。 决 定 这 种 能 力 的 基本 技术 是 Web 分 析 。 尽 管 Web 分 析 工 具 提 供 了 宝贵 的 见解 ， 但 
是 对 访问 者 的 行为 分 析 只 是 一 个 定性 地 确定 用 户 兴趣 和 意图 ， 定 量 地 确定 网 页 的 点 击 量 的 简 
单 功能 。 幸 运 的 是 ， 还 有 另外 两 个 根据 用 户 的 在 线 行为 ， 对 用 户 的 行为 提供 定性 分 析 并 得 到 
用 户 和 访问 者 反馈 的 应 用 : 客户 体验 管理 (Customer Experience Management, CEM) 和 客户 呼 
声 (Voice of Customer, VOC); 
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© Web 分 析 的 重要 作用 在 于 利用 集成 、 挖 据 和 可 视 化 数据 ， 在 线 销售 报告 和 获得 访问 
者 的 努力 ， 包 括 网 页 上 访问 者 的 交流 信息 ， 以 及 通过 定义 多 步 流程 概括 访问 者 流量 
等 信息 ， 解 决 “ 什 么 地 点 和 什么 时 间 ” 的 问题 。 





采取 行动 《实际 改变 ) 











数据 是 如 何 应 用 的 


Y 


度量 值 
(报表 /分 析 ) 


图 5-10 用 于 网 站 优化 的 二 维 输入 图 


e 客户 呼声 的 重要 作用 在 于 通过 对 网 站 访问 者 的 反馈 信息 、 网 站 监测 信息 和 离线 渠道 
进行 收集 和 分 析 ， 以 及 对 未 来 访问 者 行为 的 预测 建 模 的 支持 ,解决 “什么 人 和 什么 
方式 ”的 问题 。 

© 客户 体验 管理 的 重要 作用 在 于 通过 发 现 网 络 的 应 用 问题 ， 追 踪 和 解决 商业 过 程 和 使 
用 上 的 障碍 ， 报 告 现场 绩效 和 实用 性 ， 实 现实 时 变更 和 监控 以 及 对 访问 者 的 行为 进 
行 深入 诊断 ， 解 决 “ 是 什么 和 为 什么 ”的 问题 。 

这 3 个 应 用 需要 对 用 户 的 行为 进行 全 面 的 分 析 ， 每 个 应 用 具有 不 同 的 价值 并 扮演 着 不 

同 的 角色 。Web 分 析 、 客 户 体验 管理 和 客户 呼声 构成 了 网 站 最 优化 生态 系统 的 基础 ， 支 持 
在 线 企业 影响 产 出 的 商业 能 力 ( 图 5-11 以 可 视 化 的 形式 展现 了 网 站 最 优化 系统 的 过 程 )。 














客户 在 网 上 交互 交互 分 析 关于 客户 的 全 面 知识 























图 5-11 从 流程 视角 看 网 站 最 优化 生态 系统 
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这 些 相似 但 又 有 区 别 的 应 用 ， 帮 助 网 站 运营 者 认识 到 绝 大 多 数 网 站 管理 者 所 面临 的 挑战 ， 
并 对 这 些 挑战 做 出 反应 和 回应 。 最 优化 流程 的 根本 是 度量 ， 通 过 利用 Web 挖掘 工具 和 技术 
将 收集 到 的 数据 和 信息 转化 为 可 以 提升 企业 的 有 形 分 析 和 建议 。 如 果 应 用 合理 的 话 ， 可 以 
将 这 些 应 用 收敛 验证 ， 将 收集 到 的 同一 个 访问 者 的 不 同 数据 集中 处 理 ， 对 访问 者 的 行为 进 
行 更 丰富 更 深入 的 理解 。 这 种 收敛 验证 模型 一 一 将 描述 同一 个 访问 者 的 不 同 资料 信息 聚集 
在 一 起 增加 了 分 析 结 果 的 深度 和 丰富 性 
应 用 提供 了 定性 的 输入 信息 ; 另 一 方面 ， 对 CEM 提供 的 定量 数据 进行 关键 数据 发 现 来 减 
小 数据 的 差异 性 。 当 正确 实施 时 ，3 个 系统 提供 的 信息 来 自 于 同一 用 户 。 这 些 数据 进行 合 
并 (通过 数据 集成 项 目 或 者 执行 好 的 简单 分 析 处 理 过 程 ) 支持 比 任何 单个 生态 系统 成 员 更 
可 操作 的 洞察 力 。 





形成 了 网 站 最 优化 系统 的 架构 。 一 方面 ，VOC 


来 源 : Based on E. T. Peterson, “The Voice of Customer; Qualitative Data as a Critical Input to Web Site Optimization,” 
2008 foreseeresults. com/Form_Epeterson_WebAnalytics. html( accessed on May 22 ,2009). 








5.9 节 复 习题 


1. 为 什么 我 们 需要 Web 挖掘 ? 
2. 用 自己 的 语言 说 明 Web 挖掘 的 优 缺点 。 
3. Web 挖掘 成 功 事 例 的 共同 点 有 哪些 ? 


本 章 重 点 


文本 挖掘 是 指 从 非 结 构 化 〈 大 部 分 是 文本 型 ) 的 数据 资源 中 挖掘 出 有 用 的 知识 。 假 设 大 量 的 信 
息 是 以 文本 的 形式 存储 的 ， 文 本 挖掘 是 商务 智能 领域 一 个 发 展 最 快 的 分 支 之 一 。 


。 企业 通过 对 顾客 在 网 页 、 博 客 和 维基 百科 网 站 〈Wiki) 上 留 下 的 反馈 信息 进行 文本 挖掘 和 Web 


挖掘 ， 来 更 好 地 理解 顾客 的 需求 。 

文本 挖掘 应 用 实际 上 覆盖 了 商业 和 政府 的 每 个 方面 ， 包 括 : 市 场 营销 、 财 务 、 保 健 、 医 学 和 国土 
安全 。 

文本 挖 气 利 用 自然 语言 程序 将 结构 转化 为 文本 ， 然 后 再 利用 数据 挖掘 算法 ， 如 分 类 、 聚 集 、 关 联 
和 序列 等 从 文本 中 提取 出 知识 。 


。 成 功 的 文本 挖掘 需要 利用 一 个 类 似 于 数据 挖掘 中 的 CRISP-DM 的 结构 化 方法 。 
。 文本 挖掘 和 信息 提取 、 自 然 语言 处 理 、 文 献 总 结 紧 密 相关 。 


文本 挖掘 需要 从 非 结 构 化 的 信息 中 产生 数字 型 的 指标 ， 然 后 利用 数据 挖掘 算法 对 这 些 数字 型 的 指 
标 进 行 分 析 。 

Web 挖掘 是 指 对 网 络 上 的 、 关 于 网 络 的 以 及 基于 网 络 工具 的 人 们 感 兴趣 的 和 有 用 的 信息 进行 挖掘 
和 分 析 。 

Web 挖掘 可 以 认为 由 以 下 3 个 部 分 组 成 : Web NAHH, Web 结构 挖掘 和 Web 使 用 挖掘 。 

Web 内 容 挖掘 是 指 自动 地 从 网 页 中 提取 出 有 用 的 信息 ， 这 可 以 优化 搜索 引擎 的 搜索 结果 。 

Web 结构 挖掘 是 指 从 网 页 包含 的 链接 中 提取 出 人 们 感 兴趣 的 信息 ， 如 谷歌 的 网 页 排名 算法 对 显示 
的 网 页 进行 排序 。 

Web 结构 挖掘 可 以 识别 出 一 个 特殊 组 织 中 的 成 员 ， 并 有 可 能 识别 出 每 个 成 员 所 扮演 的 角色 。 
Web 使 用 挖掘 是 指 从 Web 服务 器 日 志 、 用 户 特征 和 交易 信息 中 发 现 有 用 的 知识 。 

Web 使 用 挖掘 对 CRM、 个 性 化 制定 、 站 点 导航 和 优化 商业 模型 起 到 辅助 作用 。 

文本 和 Web 挖掘 是 下 一 代 商 务 智 能 工具 中 的 关键 组 件 ， 帮 助 组 织 取得 成 功 。 


关键 术语 


analytical model 分 析 模 型 

analytical techniques 分 析 技 术 

association 关联 

authoritative pages 权威 网 页 

classification 分 类 

clickstream analysis 点 击 流量 分 析 

clickstream data 点 击 流量 数据 

clustering 聚 类 

corpus 语料库 

Customer Experience Management (CEM， 客 户 体验 
管理 ) 

deception detection 欺诈 行为 侦查 

hub 网 页 中 心 

Hyperlink- Induced Topic Search (HITS， 超 链接 搜索 ) 
inverse document frequency 逆 文 献 频率 法 

Natural Language Processing (NLP， 自 然 语言 处 理 ) 
part- of- speech tagging 词性 标注 

polysemes 多 义 词 

search engine 搜索 引擎 


讨论 题 


. 说 明 数 据 挖掘 、 文 本 挖掘 和 Web 挖掘 之 间 的 关系 。 
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sentiment analysis 语义 分 析 

sequence discovery 序列 挖掘 

Singular Value Decomposition (SVD， 奇 异 价值 分 解 ) 
speech synthesis 语音 合 

stemming 词根 

stop words 无 用 词 

Term- Document Matrix (TDM ,文献 术语 矩阵 ) 
text mining 文本 挖掘 

tokenizing 标记 处 理 

trend analysis 趋势 分 析 

unstructured data 非 结 构 化 数据 

Voice Of Customer (VOC， 客 户 呼 声 ) 

Web analytic Web 分 析 

Web content mining Web 内 容 挖掘 

Web crawler WJ JEE 

Web mining Web 挖掘 

Web structure mining Web 结构 控 掘 

Web usage mining Web 使 用 挖掘 

Wiki 维基 百科 


. 企业 在 购买 文本 挖掘 或 Web 挖掘 之 前 要 考虑 哪些 问题 ? 


. 讨论 文本 挖掘 和 Web 挖掘 的 区 别 和 联系 。 


. 用 自己 的 语言 定义 文本 挖掘 ， 并 说 明文 本 挖掘 和 Web 挖掘 的 共同 点 。 


. 什么 是 将 信息 转化 为 文本 型 数据 ? 阐述 转化 为 文本 型 数据 的 方法 。 
. 文本 挖掘 中 自然 语言 处 理 的 作用 是 什么 ? 分 析 文 本 挖掘 中 文本 处 理 过 程 的 作用 和 局 限 。 
. 指出 并 讨论 文本 挖掘 的 3 个 主要 的 应 用 领域 。 这 3 个 应 用 领域 中 的 共同 主题 是 什么 ? 


1 
2 
3 
4 
5. 讨论 数据 挖掘 处 理 过 程 (如 CRISP - DM) 和 本 章 提 到 的 文本 挖掘 的 3 个 步骤 之 间 的 相同 点 和 不 同 点 。 
6 
7 
8 
9 


- 分 析 Web 挖掘 和 Web 分 析 的 关系 。 


10. Web 挖掘 的 有 哪 3 个 主要 的 应 用 领域 ? 讨论 它们 的 不 同 点 和 相同 点 。 

11. 什么 是 Web 内 容 挖掘 ? 和 文本 挖掘 有 什么 区 别 ? 用 实际 例子 做 出 解释 。 

12. 什么 是 Web 结构 挖掘 ? 什么 是 权威 网 页 ? 它们 和 Web 结构 挖掘 有 什么 关联 ? 

13. 讨论 Web 结构 挖掘 的 作用 ， 从 现实 生活 的 应 用 中 举 出 你 熟悉 的 例子 。 

14. 什么 是 Web 使 用 记录 挖掘 ? 用 图 形 表示 Web 使 用 记录 挖掘 的 过 程 ， 并 解释 该 过 程 的 主要 步骤。 
15. 举 出 两 个 典型 的 Web 使 用 记录 挖掘 的 商业 例子 ， 分 析 它 们 的 作用 和 价值 。 


练习 
Teradata 和 其 他 的 动手 练习 


1. 进入 teradatastudentnetwork. com ， 找 到 文本 挖掘 和 Web 挖掘 的 示例 ， 阐 述 该 领域 最 近 的 发 展 状况 。 如 


果 在 该 网 站 上 不 能 找到 足够 的 资料 ， 可 以 扩展 到 其 他 网 站 资源 。 
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2. 进入 teradatastudentnetwork. com， 或 者 查看 白皮书 、 网 络 研讨 会 或 者 其 他 的 与 文本 挖 据 和 Web 挖掘 相 
关 的 资料 ， 总 结 自己 的 发 现 ， 写 一 份 总 结 报告 。 

3. 查找 网 络 资源 或 图 书馆 数据 库 找 出 文本 /Web 挖掘 与 当今 商业 智能 相关 联 的 文献 。 

小 组 作业 和 角色 扮演 

1. 如 何 利用 Web 技术 自动 地 获得 文本 型 数据 ,一旦 获取 了 这 些 数据 ,你 可 以 从 这 些 非 结构 化 数据 资料 中 提 
取出 几 种 类 型 ? 

2. 对 你 所 在 学 校 的 行政 人 员 或 所 在 组 织 的 管理 者 进行 访问 ， 确 定 文本 挖掘 和 Web 挖掘 在 他 们 的 工作 中 起 到 
了 什么 作用 ， 根 据 自 己 的 发 现 写 一 份 报告 ， 报 告 中 包含 初步 的 成 本 /收益 分 析 。 

3. 进入 自己 的 在 线 图 书馆 资源 ， 知 道 如 何 对 一 个 专业 领域 的 文献 (期 刊 文献 ) 进行 下 载 ， 下 载 并 利用 应 用 
案例 5.5 中 的 方法 对 这 些 文献 进行 处 理 。 

网 上 练习 

1. 进入 ClearForest. com 和 Megaputer com 以 及 dmreview. com 和 一 些 文本 挖掘 产品 和 服务 提供 者 的 网 
站 ， 找 出 本 章 中 没有 涉及 的 一 些 文本 挖掘 工具 和 供应 商 。 

2. 找 出 最 近 的 Web 挖掘 应 用 的 成 功 案 例 ， 找 出 文本 挖掘 供应 商 和 咨询 公司 的 例子 或 成 功 示例 ， 写 一 份 包含 
5 个 案例 的 报告 。 

3. 进入 statsoft com ， 选 择 “Downloads ( FR)”, 下载 至 少 3 篇 应 用 白皮书 ， 这 些 应 用 中 哪些 用 到 了 本 章 
中 提 到 的 数据 /文本 /Web 挖掘 技术 ? 

4. 进入 sas. com， 下 载 至 少 3 篇 应 用 白皮书 ， 这 些 应 用 中 哪些 用 到 了 本 章 中 提 到 的 数据 /文本 /Web 控 掘 技术 ? 

5. 进入 spss. com， 下 载 至 少 3 篇 应 用 白皮书 ， 这 些 应 用 中 哪些 用 到 了 本 章 中 提 到 的 数据 /文本 /Web 挖掘 
技术 ? 

6. 进入 terdata. com ， 下 载 至 少 3 篇 应 用 白皮书 ， 这 些 应 用 中 哪些 用 到 了 本 章 中 提 到 的 数据 /文本 /Web 挖 
掘 技术 ? 

7. 进入 fairisaac. com， 下 载 至 少 3 篇 应 用 白皮书 ， 这 些 应 用 中 哪些 用 到 了 本 章 中 提 到 的 数据 /文本 /Web 挖 
掘 技术 ? 

8. 进入 salfordsystem. com， 下 载 至 少 3 篇 应 用 和 白皮书， 这些 应 用 中 哪些 用 到 了 本 章 中 提 到 的 数据 /文本 / 
Web 挖掘 技术 ? 

9. 进入 kdnuggets. com， 进 入 应 用 和 软件 部 分 ， 至 少 找 出 3 个 数据 挖掘 和 文本 控 气 组件。 


本 章 结尾 应 用 案例 

HP 和 文本 挖掘 

惠普 公司 (Hewlett-Packard Company, HP) 由 William R. Hewlett 和 David Packard 建立 于 1939 年 ， 总 部 
设立 在 美国 加 利 福 尼 亚 州 的 帕 罗 奥 图 市 。HP 为 全 球 的 个 人 、 中 小 型 商业 和 大 型 企业 提供 产品 、 技 术 、 解 决 
方案 和 服务 。 同 时 HP 也 提供 管理 软件 方案 ， 使 企业 客户 能 够 管理 他 们 的 IT 架构、 运作、 应 用 、 开 服务 、 
业务 流程 以 及 各 种 应 用 平台 。 著 名 的 HP 产品 种 类 包括 : 商务 和 消费 者 个 人 计算 机 、 工 作 站 、 掌 上 电脑 设 
备 、 喷 墨 打印 机 、 数 码 娱 乐 系统 、 计 算 器 以 及 和 这 些 相 关 的 配件 、 软 件 和 服务 ， 还 包括 了 数码 摄影 和 娱乐 
设备 ， 图 表 ， 成 像 和 打印 硬件 中 的 打印 机 耗材 ， 打 印 设备 、 扫 描 仪 和 网 络 架构 产品 ， 如 以 太 网 交换 机 。 零 
售 商 组 成 了 公司 分 销 渠 道 ， 公 司 还 通过 产品 总 分 销 、 生 产 厂商 和 系统 集成 商 来 销售 产品 。 

MASE 

HP 的 顾客 通过 电子 邮件 的 形式 和 企业 进行 联系 。 结 构 化 数据 分 析 在 发 现 特性 方面 是 有 效 的 ， 如 消息 是 
什么 人 、 什 么 时 间 、 什 么 地 点 和 如 何 产 生 的 。 如 果 挖 所 技术 能 够 发 现 这 些 邮件 发 送 的 原因 ， 就 能 够 获取 有 
价值 的 信息 。 电 话 服务 中 心 是 顾客 和 企业 之 间 交 互 的 一 个 普通 方式 。HP 通过 电话 服务 从 与 顾客 交流 的 信息 
(如 词汇 文献 、 电 子 邮件 和 其 他 资源 ) 中 看 到 了 商机 。 将 结构 化 和 非 结构 化 的 数据 结合 起 来 具有 巨大 的 潜 
在 价值 ，HP 从 中 发 现 了 商业 价值 。 
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系统 
HP 之 前 使 用 的 标准 工具 不 能 够 从 顾客 的 交流 资料 中 获取 有 用 的 信息 ， 如 今 ，HP 用 SAS 的 Institute s 
Test Miner 能 够 从 客服 中 心 与 顾客 的 交流 资料 中 找 出 分 析 指 标 ， 然 后 再 将 这 些 指标 进行 标准 化 处 理 。HP 利 
用 文本 挖掘 工具 将 结构 化 数据 和 文本 数据 混合 为 结构 化 / 非 结 构 化 的 数据 集 ， 该 数据 集 存储 在 Microsoft 的 
SQL Server 数据 库 中 并 提供 在 线 分析 处 理 引 擎 。 如 今 ， 该 系统 包含 了 300 000 个 文本 文献 ， 几 乎 有 500 亿 字 
节 ， 覆盖 了 3 个 客服 中 心 18 个 月 的 所 有 记录 。 
HP 实现 了 管理 者 视图 ， 该 视图 是 一 个 由 Temtec (temtec. com) 开发 的 网 络 工具 ， 该 工具 帮助 HP 利 
用 SAS 的 企业 挖掘 工 具 中 的 预测 模型 、 顾 客 忠诚 度 打 分 和 客户 差异 性 来 扩展 OLAP 多 维 数据 集 。 
流程 
各 种 概念 ， 如 使 用 的 产品 、 顾 客 打 电 话 的 频率 和 顾客 存在 的 一 些 常见 问题 被 应 用 于 文本 挖掘 中 ， 结 果 
增加 了 文本 聚集 的 程度 。 将 这 些 聚 集 的 文本 和 第 三 方 提供 的 结构 化 数据 联系 起 来 ，HP 实现 了 结构 化 数据 的 
组 合 和 分 析 ， 如 客户 的 心愿 、 态 度 和 需求 的 收入 。 
由 于 文本 资料 的 广度 和 分 散 性 ， 文 本 分 析 成 为 一 个 富有 挑战 性 的 工作 。 不 同 的 顾客 数据 库 中 包含 不 同 
的 结构 化 信息 ， 这 些 信 息 很 容易 集成 ， 问 题 在 于 文本 中 除了 包含 了 结构 化 信息 之 外 还 包含 了 非 结构 化 信息 。 
SAS 的 Text Miner 采用 了 单一 价值 分 解 技术 ， 该 文本 挖掘 软件 需要 预先 制定 一 个 词典 和 同义词 列表 ; 然而 ， 
组 织 制定 一 个 符合 自身 情况 的 商业 环境 信息 集 是 一 项 非常 复杂 的 工作 。 除 了 传统 的 数据 仓库 ， 文 本 数据 可 
以 应 用 于 各 种 环境 中 。SAS 的 Text Miner 所 面临 的 最 大 挑战 是 找 出 顾客 在 HP 网 站 上 的 活动 ， 以 及 从 这 些 顾 
客 活动 中 发 掘 出 商机 。 
除了 文本 挖掘 的 主要 应 用 之 外 ，SAS 的 Text Miner 还 可 以 对 顾客 网 站 行为 进行 预测 ， 从 而 为 HP 提供 用 
户 的 潜在 需求 。 同 时 ， 该 工具 还 能 利用 文本 中 各 种 数据 和 信息 对 供应 商 /厂商 进行 多 层次 的 分 析 。 
结论 
SAS 的 Text Miner 能 够 实现 标准 的 数据 定义 ， 而 且 保证 了 产品 分 类 模型 的 准确 度 达 到 80% 以 上 。 该 系 
统 通过 改进 的 交叉 销售 、 目 标 市 场 营 销 、 顾 客 持 有 量 和 更 好 地 预测 顾客 需求 使 HP 成 为 领先 企业 。 结 构 化 / 
非 结 构 化 数据 中 产生 的 信息 支持 企业 不 同 部 门 的 各 种 业务 。 
本 章 结尾 案例 的 问题 
1. 文本 挖掘 典型 的 应 用 有 哪些 ? 
2. 文本 挖掘 技术 是 如 何 应 用 到 其 他 商业 中 的 ? 
3. HP 的 文本 挖掘 的 挑战 有 哪些 ? 是 怎么 克服 的 ? 
4. 你 认为 在 其 他 领域 HP 能 够 利用 文本 挖掘 吗 ? 
来 源 : Based on M. Hammond, “BI Case Study; What’s in a Word? For Hewlett-Packard , It’s Customer Insight,” Business intel- 
ligence Journal , Vol. 9. No. 3, Summer 2004, pp. 48 — 51; and B. Beal, “Text Mining; A Golden Opportunity for HP,” 
SearchCRM. com, June 6, 2005, searchdatamanagement. techtarget. com/originalContent/0 , 289142, sid91 _ 
gci1136611, 00. html (accessed November 2008) . 
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学 习 目 标 

m 描述 BI 实施 的 主要 问题 

E 列 出 BI 实施 的 关键 成 功 因 素 

m 描述 整合 BI 技术 和 应 用 的 重要 性 和 问题 

m 理解 将 BI 系统 和 其 他 信息 系统 连接 的 需要 以 及 如 何 实施 
E 定义 面向 需求 的 BI 及 其 优势 与 限制 

国 列 出 和 描述 具有 代表 性 的 隐私 、BI 实施 的 主要 法 律 和 道德 问题 
E 理解 Web 2.0 及 其 与 BI 和 决策 支持 相关 的 特点 

m 理解 社交 网 络 概念 、 选 择 的 应 用 和 它们 与 BI 的 关系 

m 描述 虚拟 世界 技术 是 如 何 改变 BI 应 用 的 使 用 的 

加 描述 BI 应 用 中 社交 软件 的 整合 

E 理解 REID 数据 分 析 是 如 何 改善 供应 链 管理 和 其 他 操作 的 
国 描述 海量 数据 获得 技术 是 如 何 使 得 现实 挖掘 实现 的 


介绍 

本 章 涉及 BI 实施 的 主要 问题 ， 也 介绍 了 一 些 可 能 会 影响 BI 应 用 的 新 兴 技 术 。 多 个 其 他 有 趣 
的 技术 也 正在 兴起 ， 但 是 我 们 主要 介绍 了 已 经 被 实现 的 和 一 些 将 要 影响 到 BI 的 技术 。 我 们 介绍 
了 这 些 新 兴 技 术 ， 探 讨 了 它们 的 应 用 ， 总 结 了 它们 和 BI 之 间 的 关系 。 我 们 讨论 了 4 个 主要 的 实 
施 问 题 : 整合 ， 与 数据 库 和 其 他 信息 系统 连接 ， 基 于 需求 的 BI， 可 能 影响 到 BI 实施 的 法 律 、 隐 
私 、 道 德 问题 。 我 们 以 一 个 案例 结束 这 一 章 ， 这 个 案例 描述 了 一 种 创新 使 用 无 线 射 频 识 别 设 备 、 
BI 和 决策 支持 的 方法 。 


开篇 场景 ， Bl Eastern Mountain Sports 增加 合作 和 生产 力 


Eastern Mountain Sports 是 个 中 等 大 小 的 特产 零售 商 «(2009 年 销售 额 为 20 000 万 美元 ) ， 它 通 
过 订单 目录 和 在 线形 式 ， 利 用 全 国 80 个 实体 商店 销售 货物 。Sports 的 业务 是 在 一 个 竞争 很 激烈 
的 环境 中 进行 的 。 公 司 需 要 做 的 决策 包括 : 持续 的 产品 开发 、 市 场 营 销 、 生 产 、 销 售 。 好 的 决策 
需要 来 自 员工 、 顾 客 、 供 应 商 的 输入 和 合作 。 在 过 去 的 几 年 中 ， 公 司 实施 了 BI 系统 ， 这 个 系统 
包括 业务 绩效 管理 和 仪表 盘 。BI 系统 从 多 种 渠道 收集 原始 数据 ， 将 它们 处 理 成 数据 ， 实 施 对 比 
绩效 与 操作 标准 等 分 析 ， 从 而 评估 商业 健康 程度 ( 见 图 6-1)。 

接 下 来 介绍 系统 是 如 何 工作 的 。 在 IBM 大 型 计算 机 中 能 够 获得 的 销售 点 信息 和 其 他 相关 数 
据 ， 被 载 人 到 Microsoft SQL 和 数据 集 市 中 。 数 据 随 后 被 Information Builders 的 WebFOCUS 7. 12 平 
人 台 进 行 分 析 。 结 果 通 过 一 系列 用 户 能 够 通过 网 络 浏览 器 查看 的 仪表 盘 展 示 出 来 。 这 就 使 得 用 户 
能 够 看 见 统一 、 高 水 平 的 关键 绩效 指标 ， 例 如 ， 销 售 额 、 库 存 、 边 际 利润 情况 ， 之 后 将 指标 分 解 
成 更 小 的 粒度 使 其 能 够 分 析 特 定 的 业务 。 

尽管 采用 了 尖端 技术 ， 但 系统 由 于 缺乏 所 有 参与 者 之 间 的 数据 、 沟 通 和 合作 ， 这 个 系统 一 直 
运行 得 不 是 很 好 。 
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SQL 服务 器 
























图 6-1 Eastern Mountain Sports 的 协同 决策 制定 


解决 方案 : 将 BI 与 社交 软件 整合 
公司 搭建 了 一 个 叫做 -Basecamp 的 多 功能 员工 工作 平台 。E-Basecamp 包括 与 公司 目标 相关 
的 信息 ， 这 些 公司 目标 与 生产 率 工 具 (如 电子 表格 )， 以 及 以 角色 为 基础 为 每 个 用 户 定制 的 内 容 


相 整 合 


。 该 系统 使 得 内 部 和 外 部 相关 利益 者 们 的 合作 更 加 方便 。EMS 正在 使 用 的 操作 标准 有 20 


条 【例如 库存 水 平和 转换 ) 。 这 些 标 准 也 包括 电子 零售 、 网 络 营销 ， 营 销 经理 在 这 里 可 以 监测 每 
小 时 内 的 网 络 流量 和 转换 率 。 仪 表盘 通过 颜色 码 来 显示 与 目标 的 偏离 情况 。 


RSS Feed RSS Feed ( 见 6.7 节 ) 被 伐 入 到 仪表 盘 中 来 驱动 更 多 被 关注 的 查询 。 这 些 
Feed 是 信息 共享 和 在 线 转 换 的 基础 。 例 如 ， 通 过 显示 哪个 产品 比 其 他 的 销售 得 更 好 ， 用 
户 能 够 综合 分 析 交 易 的 特性 并 产生 高 销售 额 的 销售 行为 。 获 得 的 知识 在 组 织 机 构 内 传 
递 。 例 如 ， 一 个 经 理 观 察 到 在 商店 X ARRAS. AERAN X 的 员工 已 经 完 
善 了 一 个 多 步骤 的 销售 技巧 ， 这 种 技巧 包括 〈 在 网 上 和 商店 中 ) 推荐 特定 的 福子， 连同 
鞋底 内 部 为 特殊 用 途 进 行 设 计 。 信 息 通过 RSS Feed 进行 传播 。 结 果 ， 鞋 类 的 销售 额 在 那 
一 年 增加 了 57% 。 

Wiki (维基 百科 ) Wiki 用 来 鼓励 公司 中 合作 性 的 交互 。 仪 表盘 用 户 被 鼓励 去 做 出 假设 
和 要 求 来 寻求 帮助 ， 然 后 发 起 评论 和 建议 ， 就 像 是 仪表 盘 边 上 的 记事 本 。 

Blog (博客 ) Blog 应 用 在 特定 的 数据 或 是 关键 标准 中 ， 用 来 发 布 信息 和 发 起 评论 。 工 
具 常 被 用 来 存档 、 查 询 并 且 为 了 更 容易 查询 可 将 Blog 进行 分 类 。 例 如 ， 商 店 经 理发 布 一 
项 调查 或 者 是 对 于 销售 偏离 目标 的 解释 。 在 Blog 上 进行 评论 使 得 读者 能 够 观察 到 他 们 单 
独 使 用 数据 分 析 模 式 可 能 忽视 的 类 型 。 

Twitter (HF) 在 2009 年 ， 微 博 变 得 非常 流行 。 这 项 技术 方便 了 沟通 和 合作 ， 加 速 了 
业务 处 理 。 

社交 网 络 服务 ”鼓励 员工 和 商业 伙伴 加 入 到 Linkedin 中 。 主 要 的 应 用 就 是 加 入 论坛 和 使 
用 回答 功能 。 这 种 工具 鼓励 外 部 的 沟通 和 合作 。 
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与 商业 伙伴 外 部 联系 

供应 商 通过 Blog, Wiki, RSS Feed 与 BI 系统 相 联系 。 例 如 ， 供 应 商 可 以 在 仪表 盘 上 监测 退 
货 率 ， 然 后 通过 Blog 或 者 Wiki 邀请 商店 经 理 提供 如 何 降低 退货 率 的 建议 。 假 设 安 装 了 恰当 的 保 
护 措 施 ， 那 么 供应 商 能 够 得 到 他 们 产品 销售 情况 的 实时 数据 ， 能 够 准备 更 好 的 产品 计划 。 同 样 
Twitter 和 LinkedIn 在 商业 伙伴 中 也 被 广泛 地 应 用 。 

目标 就 是 与 商业 伙伴 建立 更 加 紧密 的 联系 。 例 如 ， 通 过 在 供应 商 的 仪表 盘 中 安装 Blog ， 供 应 
商 就 能 够 查看 实时 的 销售 信息 并 且 在 Blog 上 发 布 评论 。 产 品 经 理 利 用 Wiki 来 发 布下 一 季 的 挑战 
(例如 建议 的 销售 增长 百分比 ) ， 然 后 让 供应 商 提 供 创 新 的 方法 来 实现 目标 。 许 多 顾客 和 其 他 的 
商业 伙伴 订阅 了 RSS Feed, 

Blog th, FEB HRA EMS 公司 的 产品 生命 周期 管理 (Product Lifecycle Management, PLM) 工具 
中 。 这 人 允许 供应 商 进 行 产 品 开发 管理 的 虚拟 对 话 。 

结果 

BI 和 社交 软件 结合 的 主要 影响 就 是 在 Blog 、Wiki RSS Feed 和 论坛 等 这 些 双方 都 有 兴趣 参与 的 地 
方 进行 对 话 。 这 加 速 了 信息 的 流动 ， 增 加 了 人 们 的 参与 度 。 销 售 和 边际 利润 都 呈 持 续 增 长 趋势 。 
开篇 场景 的 问题 

1. BI 系统 的 原始 功能 是 什么 ? 

2. 为 什么 将 BI 和 社交 软件 整合 是 有 益 的 ? 

3. 区 别 案例 中 的 内 部 和 外 部 整合 以 及 它们 对 于 EMS 的 贡献 。 

4. 整合 对 于 供应 商 的 益处 是 什么 ? 

我 们 从 开篇 场景 中 能 够 学 到 什么 

通过 将 BI 和 社交 软件 整合 ，EMS 成 功 地 加 强 了 自己 的 经 理 们 和 供应 商 之 间 的 沟通 和 合作 。 
这 样 的 整合 叫做 协同 决策 (Collaborative Decision Making, CDM) ( 详 见 6.10 节 ) 。 社 交 软 件 是 基 
于 新 的 计算 范例 的 Web 2.0 ( 见 6.7 节 ~6.10 节 )。 社 交 软 件 工 具 使 得 内 部 和 外 部 的 沟通 和 合作 
更 加 便利 。 这 种 整合 就 是 一 个 将 BI 与 其 他 的 信息 系统 相 整 合 能 做 什么 的 例子 (6.2 节 和 6.3 
节 )。 在 BI 实施 中 ， 整 合 是 过 到 的 主要 问题 (6.2 节 )。6.5 节 讨 论 了 BI 实施 中 遇 到 的 法 律 、 隐 
私 和 道德 问题 。6. 6 节 列 举 了 一 些 趋势 和 新 兴 的 技术 ， 这 些 技术 会 在 本 章 后 面 的 节 中 给 予 描述 。 
Web 2.0 (6.7 节 )、 社 交 网 络 (6.8 节 、6. 10 节 ) 和 虚拟 世界 (6.9 节 ) 是 和 BI 相关 的 尖端 技 
术 。 本 书 以 其 他 的 新 兴 问 题 ， 包 括 面向 需求 的 BI (6.44), RFID (6.11 节 ) 的 使 用 和 现实 挖 
据 (6.12 节 ) 等 结束 全 书 。 


资料 来 源 : Based on Neville,].,“EMS: Adventures in X-treme Web 2.0,” Optimize, Vol. 6, No. 1 , January 2007, p. 33, ( ac- 
cessed Jan. 2010) and from ems. com( accessed January 2010). 


6.1 Bl Sci. 概述 

实施 BI 系统 非常 复杂 。 除 了 一 般 的 信息 系统 实施 中 的 典型 问题 外 ， 例 如 用 无 形变 量 证 明 系 
统 的 方法 来 进行 合适 的 成 本 - 利润 分 析 和 处 理 对 于 变化 的 抵抗 ， 还 有 整合 、 安 全 、 系 统 可 扩展 
性 、 数 据 仓库 的 建设 、 分 析 和 仪表 盘 等 许多 问题 。 


6.1.1 BI 实施 因素 


许多 因素 能 够 影响 到 BI 的 实施 。 这 些 因素 是 技术 、 行 政 管理 和 行为 等 。 许 多 因素 都 是 信息 
系统 所 普遍 具有 的 ， 并 且 在 信息 系统 文献 中 进行 了 广泛 的 研究 。 根 据 Asif (2009) 的 报道 ， 影 响 
BI 实施 决策 过 程 的 主要 因素 有 以 下 这 些 : 
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1. 报告 和 分 析 工 具 

a. 特征 和 功能 

b. 可 扩展 性 和 可 部 署 性 

c. 可 用 性 和 可 管理 性 

d. 定制 应 用 的 能 力 

2. 数据 库 

a. 可 扩展 性 和 性 能 

b. 可 管理 性 和 可 用 性 

c. 安全 和 可 定制 性 

d. 可 回 写 的 能 力 

3. 提取 、 转 换 和 加 载 (ETL) 工具 

a. 读 取 任 何 资源 的 能 力 

b. 高 效 和 生产 率 

c. 跨 平台 支持 

4. 涉及 的 成 本 

a 硬件 成 本 (实际 或 是 机 会 成 本 ) 

b. 软件 成 本 ( ETL、 数据 库 、 应 用 、 前 端 ) 
c. 内 部 开发 成 本 

d. 外 部 开发 成 本 

e. 内 部 培训 

f. 
5 
b 
d 


节约 时 间 和 操作 便利 

. 更 低 的 操作 成 本 

- 改善 的 客户 服务 和 满意 度 

. 改善 的 业务 和 战略 决策 水 平 
改善 的 员工 交流 情况 和 满意 度 
改善 的 知识 分 享 情 况 

这 些 因素 需要 定性 和 定量 的 分 析 。 


BI 实施 的 关键 成 功 因 素 虽然 可 能 有 许多 因素 影响 到 BI 的 实施 ， 但 Wikipedia (http:// 
en. wikipedia. org/wiki/Business_intelligence, 2010 年 1 月 ) 显示 的 一 份 Vodapalli (2009) 报告 


表明 ， 以 下 是 影响 BI 成 功 实施 的 因素 : 
a. 业务 驱动 的 方法 和 项 目 管理 
b. 清晰 的 愿景 和 计划 
c 管理 支持 和 赞助 
d. 数据 管理 和 质量 问题 
e. 将 解决 方法 与 用 户 需 求 相 匹配 
f. BI 系统 运行 情况 考虑 
g. 强大 的 可 扩展 性 的 框架 


6.1.2 Bl 实施 中 的 管理 问题 
有 许多 与 BI 实施 相关 的 管理 问题 。 如 下 面 所 述 : 
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1. 系统 开发 和 整合 的 需求 ”开发 一 个 有 效 的 系统 是 非常 复杂 的 。 为 此 ,许多 BI 供应 商 提 供 
高 度 整 合 的 应 用 的 选择 ， 这 些 选 择 包 括 与 ERP 和 CRM 等 系统 的 连接 ( 见 6.3 节 )。 著 名 的 公司 
有 Oracle, Business Objects, MicroStrategy, IBM 和 Microsoft, 多 数 BI 供应 商 提供 应 用 整合 ， 通 常 
利用 网 络 是 可 行 的 。 

2. 成 本 -利润 问题 和 理由 本 书 中 讨论 的 BI 解决 方案 是 非常 昂贵 的 ， 并 且 只 是 在 大 的 公司 
才 有 理由 去 做 。 小 的 组 织 机 构 如 果 能 够 利用 现存 的 数据 库 而 不 是 新 建 数据 库 的 话 ， 是 可 以 使 得 
解决 方案 符合 成 本 要 求 的 。 一 个 解决 方案 就 是 采用 面向 需求 的 BI。 然 而 ， 在 BI 实施 之 前 都 要 进 
行 仔细 的 成 本 - 利润 分 析 。 

3. 法 律 问题 和 隐私 ”BI 分 析 专 家 可 能 建议 一 个 公司 将 电子 或 者 打印 的 目录 或 者 促销 发 送 给 
一 个 年 龄 段 或 是 一 种 性 别 的 顾客 。 一 个 男性 顾客 起 诉 过 Victor 的 Secret 这 个 品牌 ( Limitedbrands 
的 一 个 品牌 ) ， 原 因 就 是 他 的 女性 邻居 收 到 的 邮寄 订单 目录 包含 有 折扣 的 商品 ， 但 是 他 收 到 的 仅 
仅 是 常规 的 产品 目录 (折扣 通常 是 在 大 量 购买 的 时 候 才 会 有 ) 。 处 理 歧视 诉讼 会 很 昂贵 。 有 些 数 
据 挖掘 会 侵犯 个 人 隐私 。 

公司 会 采取 什么 措施 来 保护 消费 者 ? 消费 者 应 该 如 何 保护 自己 的 隐私 ? 这 些 问 题 应 该 在 BI 
解决 方案 实施 时 给 予 充 分 的 考虑 。 更 多 的 问题 在 6.5 节 中 讨论 。 

4. BI 和 BPM 的 现状 和 未 来 ”一 个 组 织 机 构 商 业 信息 的 质量 和 及 时 性 有 时 不 仅仅 是 获 利 和 亏 
损 的 问题 ， 有 时 会 关系 到 一 个 组 织 的 生死 存亡 。 没 有 一 个 公司 否认 BI 和 BPM 的 好 处 。 最 近 的 行 
业 分 析 报 告 显 示 在 未 来 的 几 年 里 ， 成 千 上 万 的 人 们 将 会 每 天 使 用 BPM 仪表 盘 和 业务 分 析 (BA) 。 
企业 正在 通过 将 信息 发 送 给 不 同类 型 的 员工 和 最 大 化 地 利用 现存 数据 资产 获得 更 多 的 价值 。 可 
视 化 工具 包括 正在 被 生产 商 、 零 售 商 、 政 府 和 专门 代理 机 构 使 用 的 仪表 盘 。 特 定 行业 的 分 析 工 具 
会 大 量 地 出 现在 市 场 的 支持 分 析 和 从 高 层 到 用 户 层 的 已 有 的 决策 中 。BI 利用 现存 的 IT 技术 帮助 
公司 利用 他 们 的 IT 投资 ， 使 用 他 们 的 遗留 和 实时 数据 。 这 样 有 计划 的 、 仔 细 的 、 积 极 主动 的 BI 
实施 方法 对 于 竞争 来 说 是 很 有 必要 的 。 

5. 成 本 理由 ， 无 形 利润 虽然 企业 提供 有 形 利润 ， 但 是 将 他 们 的 无 形 利润 数量 化 是 非常 困 
难 的 。 在 一 个 高 能 量 成 本 、 抵 押 危 机 、 政 治 动荡 、 经 济 不 断 下 滑 的 环境 中 ，IT 投资 必须 要 经 过 
经 济 性 的 证 明 。 

6. 文档 化 和 安全 支持 系统 ”许多 员工 开发 自己 的 决策 支持 系统 或 是 BI 模块， 以 提高 他 们 的 
生产 率 和 工作 质量 。 将 这 些 特别 的 系统 保存 起 来 ， 并 确信 实现 文档 化 和 具有 安全 措施 ， 可 以 确保 
这 些 员工 不 在 或 者 离开 公司 之 后 ， 生 产 率 工具 仍然 可 以 使 用 。 采 取 合 适 的 保护 措施 是 必需 的 。 最 
终 用 户 不 是 开发 他 们 自己 BI 应 用 的 专业 系统 开发 者 。 由 于 这 个 原因 ， 这 里 可 能 存在 数据 完整 性 
和 系统 开发 安全 性 问题 。 

7. 道德 问题 “BI 和 预测 分 析 可 能 导致 严重 的 道德 问题 ， 例 如 隐私 和 问 责 制 。 另 外 ， 错 误 能 
够 对 他 人 和 公司 造成 伤害 。 例 如 ， 一 家 公司 开发 了 一 个 决策 支持 系统 来 帮助 人 们 计算 提早 退休 
的 财务 影响 。 然 而 ，DSS 开发 者 没有 包括 纳税 影响 ， 这 就 导致 了 不 正确 的 退休 决策 。 另 外 一 个 重 
要 的 道德 问题 就 是 决策 中 的 关键 因素 一 一 人 类 判断 。 人 类 判断 有 可 能 是 主观 的 或 是 不 正确 的 ， 
所 以 它 有 可 能 导致 不 道德 的 决策 。 公 司 应 该 为 系统 开发 者 提供 道德 准则 。 同 样 ， 将 经 理工 作 自动 
化 可 能 会 导致 大 量 的 失业 。 专 家 系统 和 其 他 智能 系统 的 实施 同样 会 与 道德 有 关 。 专 家 系统 建议 
的 行为 可 能 是 不 道德 甚至 是 违法 的 。 例 如 ， 专 家 系统 可 能 建议 你 做 一 些 会 伤害 他 人 的 事情 ， 或 者 
侵犯 某 些 人 的 隐私 。 一 个 例子 就 是 机 器 人 的 行为 和 机 器 人 不 按照 程序 设 定 的 方式 来 行动 的 可 能 
性 。 已 经 有 很 多 行业 的 意外 是 由 于 机 器 人 发 生 的 ， 从 而 导致 了 许多 伤亡 。 问 题 就 是 : 组 织 是 否 应 
该 使 用 一 个 不 是 100% 安全 的 节约 生产 力 的 设备 ? 另外 一 个 道德 问题 就 是 从 人 类 获得 的 信息 的 使 
用 。 这 里 的 问题 是 : 当 员 工 的 知识 被 他 人 使 用 时 ， 公 司 是 否 应 该 补偿 这 名 员工 ? 与 之 相关 的 问题 
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还 有 动机 问题 。 它 还 涉及 了 隐私 。 是 否 应 该 告知 人 们 谁 提供 了 某 些 知识 ? 最 后 一 个 需要 强调 的 道 
德 问题 就 是 : 非 人 性 化 和 感觉 机 器 能 够 比 人 更 加 聪明 。 人 们 可 能 对 于 聪明 的 机 器 有 不 同 的 态度 ， 
这 些 态度 会 在 他 们 的 工作 方式 中 体现 出 来 。 

8. BI 项 目 失败 的 例子 ”所 有 类 型 的 BI 项目 都 有 很 多 失败 的 例子 。 这 样 的 失败 有 很 多 的 原 
因 ， 从 人 的 因素 到 软件 错误 。 下 面 是 一 些 具 体例 子 : 

a. 没有 认识 到 BI 项 目 是 企业 范围 内 的 商业 活动 ， 没 有 认识 到 它 和 独立 的 解决 方案 不 同 。 

b. 缺少 能 够 确保 资金 的 商业 赞助 者 。 

c 缺少 与 来 自 功能 区 域 的 商业 代表 的 合作 。 

d. 缺少 有 能 力 的 可 用 员工 。 

e 没有 认识 到 对 商业 利润 有 负面 影响 的 “及 数据 ”的 重要 性 。 

f 太 过 依赖 供应 商 。 


6. 1 节 复 习题 


1. 影响 BI 实施 的 因素 主要 有 几 种 类 型 ? 
2. 列 出 工具 和 数据 库 方面 的 因素 。 

3. 列 出 管理 方面 的 问题 。 

4. BI 项目 成 功 的 关键 因素 是 什么 ? 


6.2 ”BI 和 整合 实施 
为 了 提高 系统 支持 任务 的 有 效 性 和 效率 ， 整 合 信息 系统 在 企业 中 是 广泛 实施 的 。BI 的 实施 
几乎 总 是 需要 一 个 或 是 多 个 整合 步骤 。 然 而 ， 整 合 就 像 接 下 来 描述 的 一 样 并 不 简单 。 


6.2.1 ”整合 的 类 型 


计算 机 系统 能 够 进行 整合 以 使 得 系统 的 构成 部 分 作为 一 个 整体 运行 ， 而 不 是 各 自分 散 工作 。 
整合 可 以 在 开发 阶段 也 可 以 在 应 用 系统 阶段 〈 也 就 是 我 们 的 主要 兴趣 领域 一 一 应 用 整合 ) 。 整 合 
被 认为 是 最 为 重要 的 问题 已 经 好 多 年 了 〈Spangler，2005) 。 有 以 下 几 种 类 型 的 整合 : 数据 整合 、 
应 用 整合 、 方 法 整合 、 流 程 整合 。 整 合 能 够 从 其 他 两 种 特征 来 观察 : 功能 和 物理 。 

功能 整合 是 指 一 个 系统 提供 不 同 的 应 用 。 例 如 ， 在 同一 个 系统 中 能 够 完成 用 电子 邮件 工作 、 
使 用 电子 表格 、 与 外 部 数据 库 进行 交流 、 产 生 图 形 表 示 、 存 储 或 是 操作 数据 。 相 似 地 ， 在 同一 个 
交互 界面 能 够 同时 使 用 商业 分 析 工 具 和 仪表 盘 ， 使 用 一 个 菜单 和 产生 一 个 输出 。 

物理 整合 就 是 将 软件 、 硬 件 和 通信 功能 进行 打包 以 实现 功能 整合 。 本 章 中 的 讨论 主要 是 功 
能 应 用 整合 ， 这 种 整合 能 够 以 两 种 方式 进行 。 

。 两 个 或 者 多 个 决策 支持 应 用 的 整合 ， 实 现 统一 应 用 。 

。 一 个 或 者 多 个 BI 工具 与 其 他 信息 系统 〈 例 如 博客 、 知 识 管理 、 数 据 库 、 财 务 系统 ) 的 

整合 。 

整合 能 够 在 一 个 公司 中 〈 内 部 整合 ) 或 是 在 两 个 公司 之 间 (外 部 整合 ) 进行 。 
6.2.2 为 什么 进行 整合 

BI 软件 整合 有 以 下 几 个 主要 目标 : 

。 实施 BI 为 了 BI 系统 的 运行 ，BI 通常 需要 与 数据 源 、 实 用 程序 和 其 他 应 用 连接 。 这 样 


的 连接 必须 有 效 和 高 效 地 完成 。 
。 提高 BI 应 用 的 能 力 ”许多 BI 开 发 工具 可 以 相互 补充 。 每 个 工具 在 它 最 擅长 的 分 任务 运 
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行 中 表现 得 最 好 。 例 如 ，BA 能 够 用 来 推荐 最 优 资源 分 配 计划 ， 仪 表盘 能 够 提供 偏离 计划 
管理 预警 的 控制 系统 。 开 始 的 引 例 证 明 社交 软件 是 如 何 使 得 BI 运行 得 更 好 的 。 
。 实现 实时 决策 支持 ”通过 紧密 的 整合 ， 在 实时 环境 中 支持 决策 的 制定 是 有 可 能 的 。 例 如 
一 个 运输 系统 应 用 无 线 通 信和 网 络 服务 产生 数据 流 。 
。 实现 更 强大 的 应 用 例如， 利用 智能 系统 提供 实时 能 力 。 
方便 系统 开发 ”紧密 的 整合 实现 了 更 快 的 开发 和 系统 组 件 之 间 的 沟通 。 
平衡 支持 活动 ”多 个 支持 活动 能 够 改善 BI 应 用 的 运行 。 例 如 ， 博 客 、Twitter、Wiki、 
RSS Feed 的 提供 ， 像 在 引 例 中 展示 的 沟通 和 合作 那样 。 
BI 整合 的 结果 是 可 能 会 提高 不 通过 整合 达 不 到 的 能 力 。 关 于 成 功 整合 的 战略 ， 参 见 Mor- 
genthal (2005 ) 。 


6.2.3 Bl 整合 的 水 平 


前 面 提 到 的 功能 整合 ， 能 够 在 以 下 两 个 不 同 的 层次 进行 : 不 同 的 BHI 之 间 和 BI 系统 内 部 。 这 
些 类 型 的 BI 整合 对 于 解决 重复 性 和 顺序 性 决策 问题 的 系统 是 适合 的 。BI 通过 帮助 将 一 个 系统 的 
输出 转化 成 另外 一 个 系统 的 输入 为 整合 提供 方便 。 结 合 多 个 分 析 ， 每 次 访问 复杂 决策 问题 的 特 
定 部 分 ， 是 BI 之 间 整 合 的 一 个 例子 。 例 如 ， 一 个 支持 营销 活动 决策 的 BA 模型 能 够 与 一 个 支持 
改善 生产 计划 的 供应 链 的 模型 相 结 合 ， 在 此 过 程 中 将 第 一 个 系统 的 某 些 输出 转化 成 第 二 个 系统 
的 输入 。 

第 二 种 水 平 的 整合 是 指 在 建立 一 个 复杂 的 BI 系统 过 程 中 将 多 个 合适 的 BI 技术 进行 整合 ， 
别 是 利用 某 些 技术 的 优势 。 


6.2.4 嵌入 式 智能 系统 


在 过 去 的 几 年 中 ,我们 发 现 很 多 为 了 实施 分 析 而 髓 入 了 智能 模块 的 系统 。 在 这 样 的 系统 中 ， 
智能 部 分 (例如 智能 代理 ) 对 于 用 户 是 不 透明 的 ， 可 能 在 实时 的 环境 中 工作 。 自 动 决策 系统 
( Automated Decision System, ADS) 就 属于 这 种 类 型 。 

在 大 型 或 者 复杂 的 BI 系统 中 髓 入 智能 组 件 越 来 越 成 为 一 种 趋势 ， 以 下 就 是 一 些 例子 : 

。 电脑 电话 与 智能 电话 中 心 整合 ， 用 来 选择 和 分 配 能 够 实时 处 理 特定 顾客 的 人 工 代 理 。 

。 在 OLTP 系统 中 建立 的 实时 决策 判定 ， 例 如 在 协作 计划 、 预 测 、 供 应 链 管理 (Supply 

Chain Management, SCM) 中 的 增资 ， 实 时 计划 决策 支持 。 

。 使 用 内 置 的 智能 代理 支持 战略 管理 计划 和 分 析 。 

。 流程 实施 和 协同 决策 判定 管理 的 智能 代理 。 


6. 2 节 复 习题 


1. 列 出 几 种 整合 的 类 型 。 

2. 描述 BI 整合 的 需要 。 

3. 列 出 整合 的 不 同 层次 。 

4. 描述 BI 与 非 BI 系统 之 间 的 整合 。 

5. 定义 嵌入 式 智能 系统 并 描述 它们 的 好 处 。 


6.3 ”BI 系统 与 数据 库 和 其 他 企业 系统 的 连接 


BI 应 用 ， 特 别 是 大 型 的 应 用 ， 需 要 和 其 他 的 信息 系统 进行 连接 。 本 部 分 讨论 的 主要 的 整合 
领域 是 与 数据 库 和 后 端 系统 的 连接 。 
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6.3.1 与 数据 库 连接 


几乎 每 个 BI 系统 都 需要 与 数据 库 和 数据 仓库 (或 是 数据 集 市 ) 相连 接 。 例 如 ， 当 BI 分 析 顾 
客 订单 的 时 候 ， 需 要 在 数据 仓库 中 找到 产品 描述 、 库 存 数 量 、 订 单 信息 。BI 应 用 能 够 通过 多 种 
方式 与 数据 库 连 接 。 今天， 许多 这 样 的 连接 是 通过 图 6-2 中 描述 的 多 层 应 用 架构 来 实现 的 。 这 个 
架构 包括 4 层 : 

1. Web 浏览 器 ， 在 这 层 ， 将 数据 和 信息 提交 给 用 户 ， 同 时 收集 来 自用 户 的 数据 。 

2. Web 服务 器 ， 这 层 主要 是 传输 网 页 ， 收 集 最 终 用 户 的 信息 ， 同 时 传递 和 接收 来 自 应 用 层 
的 数据 。 

3. 应 用 服务 器 执行 商业 规则 〈 例 如 用 户 授权 ) ， 定 制 从 Web 服务 器 传输 过 来 的 基于 数据 的 
数据 库 查 询 ， 将 这 些 查询 传送 给 终端 数据 库 〈 或 者 数据 仓库 或 者 数据 集 市 ) ， 操 作 和 格式 化 查询 
产生 的 数据 ， 并 将 格式 化 响应 传 给 Web 服务 器 。 

4. 数据 库 (数据 仓库 或 者 集 市 ) 服务 器 。 数 据 存储 和 管理 在 这 一 层 ， 同 时 此 层 对 用 户 的 请 
求 给 予 处 理 。 














Web 浏 览 器 Web 
服务 器 
| 
/ ~ = 
浏览 数据 资源 ， 客户 机 和 数据 库 
发 生 交易 之 间 的 经 纪 人 请 求 














图 6-2 多 层 应 用 架构 


6.3.2 BI 应 用 和 后 端 系统 的 整合 


许多 技术 能 够 用 来 将 BI 系统 直接 与 后 端 应 用 进行 整合 。 例 如 ， 只 有 一 个 数据 集 市 〈 或 者 市 
场 营 销 ) ， 但 是 需要 与 库存 或 者 其 他 后 端 应 用 或 者 数据 库 进 行 连接 。 许 多 商业 BI 套件 有 内 置 整 合 
能 力 。 如 果 一 个 公司 想 要 开发 自己 的 数据 库 接 口 ， 那 么 可 以 实施 许多 选择 。 首 先 ， 所 有 的 Web 
脚本 语言 〈 例 如 PHP. JSP. ASP) 都 有 简化 连接 过 程 的 命令 。 特 别 是 这 些 脚本 语言 使 得 一 个 开 
发 者 能 够 开发 向 数据 库 发 出 请 求 的 网 页 ， 同 时 网 页 能 够 处 理 数据 库 对 于 请 求 的 响应 。 第 二 ,许多 
专业 的 应 用 服务 器 能 够 简化 BI 应 用 和 一 个 或 者 多 个 后 端 数 据 库 的 连接 。 在 这 些 专 业 的 服务 器 中 ， 
BEA Inc. 的 WebLogic (bea. com) 服务 器 是 市 场 中 的 佼佼 者 (现在 是 Oracle 的 一 部 分 ) 。 

除了 与 后 端 数据 库 连接 外 ， 许 多 BI 应 用 也 需要 与 其 他 的 系统 进行 整合 一 一 ERP、CRM、 知 
识 管理 、 供 应 链 管 理 、 电 子 数据 交换 系统 和 其 他 的 在 企业 内 外 的 应 用 。 这 样 的 整合 能 够 由 企业 应 
用 集成 (Enterprise Application Integration, EAT) 软件 进行 处 理 。 这 个 软件 主要 解决 大 型 应 用 的 整 
合 。TIBCO (tibco. com), WebMethods ( softwareag. com), WebSphere InterChange Server (来 自 
IBM) 都 是 一 些 提供 EAI 平台 的 公司 。 

有 时 ， 整 合 需要 流程 的 重新 设计 。 例 如 ，Stemgold Corp (sterngold. com) 需要 将 它 的 订单 
系统 和 后 台 〈 例 如 订单 完成 库存、 财务 、 支 付 ) 整合 。 整 合 需要 对 现 有 流程 的 研究 和 对 修改 
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流程 的 重新 设计 。 

一 个 重要 的 整合 就 是 大 型 BI 与 企业 ERP 之 间 的 整合 。 

整合 BI 和 ERP 以 改善 决策 支持 ”在 过 去 的 许多 年 中 ，ERP 平台 仅 具 有 交易 处 理 能 力 和 诸如 
简单 的 报告 、 分 析 和 按照 利润 、 营 业 额 、 顾 客 满意 度 将 产品 进行 分 类 的 能 力 。 复 杂 的 报告 和 分 析 
都 来 自 独立 的 BI 系统 。 然 而 ， 公 司 认识 到 ， 如 果 能 在 员工 工作 的 应 用 环境 中 实施 分 析 或 者 与 BI 
的 连接 ， 那 么 员工 会 处 理 得 更 好 。 所 以 ，ERP 供应 商 们 开始 在 他 们 的 平台 中 开发 商务 分 析 ， 以 
至 于 顾客 不 用 在 不 同系 统 中 转换 。 这 可 能 导致 决策 质量 的 巨大 改善 。 例 如 ， 当 一 个 销售 人 员 在 接 
收 订单 的 时 候 ，BI 提供 所 有 需要 的 信息 来 决定 是 否 给 顾客 信用 额度 ， 给 多 少 信 用 额度 。 

ERP/BI 结合 通常 应 用 在 财务 系统 。 但 是 ， 公 司 正在 将 它们 应 用 在 市 场 营销 、 人 力 资源 和 生 
产 制造 的 各 种 领域 中 。 

高 水 平分 析 需 要 将 来 自 不 同系 统 的 信息 放 到 一 起 ， 包 括 供应 链 管理 、 生 产 执行 系统 、 客 户 关 
系 管理 和 产品 生命 周期 管理 。 通 过 计划 、 预 测 、 情 景 模 拟 可 以 实现 更 好 的 决策 。 

然而 ， 在 各 种 系统 之 间 的 整合 仍然 需要 花费 时 间 。 全 部 的 整合 可 能 会 花费 数 月 或 者 数 年 的 
时 间 ， 这 取决 于 组 织 的 大 小 ， 业 务 复杂 程度 和 它 的 数据 质量 可 能 有 欺骗 性 。 系 统 开发 者 需要 建立 
仪表 盘 来 确定 在 一 起 工作 的 数据 的 语法 和 语义 ,检查 在 不 同业 务 之 间 的 数据 是 清洁 和 连续 的 。 

注意 ，BIAERP 整合 可 能 不 是 一 个 有 限时 间 的 项 目 ， 因 为 它 在 不 停 地 发 展 。 用 户 可 能 想 要 优 
化 系统 或 者 需要 更 多 数据 类 型 给 更 多 的 用 户 。 


6. 3.3 ”中间 件 


为 了 连接 数据 仓库 ， 用 户 实施 分 析 、 发 现 信息 或 者 数据 可 视 化 运行 而 使 用 的 软件 称 为 中 
间 件 。 

通过 将 先前 独立 的 应 用 和 新 系统 整合 ， 公 司 和 组 织 正在 开发 企业 范围 内 的 BI BI 系统 也 必 
须 连 接 到 例如 合作 伙伴 的 系统 或 者 进行 公共 的 交换 。BI 用 户 需 要 通过 多 种 工具 与 内 部 和 外 部 应 
用 进行 交互 ， 这 些 工 具 的 特性 和 运行 特点 相差 越 来 越 大 。 在 所 有 这 些 情况 下 ， 使 用 沟通 协议 和 处 
于 操作 系统 项 部 的 中 间 软 件 来 达到 下 面 的 应 用 功能 : 

。 隐藏 区 域 分 布 (例如 一 个 应 用 通常 是 由 许多 分 布 在 不 同 地 点 的 内 部 相互 联系 的 部 分 组 
成 的 ) 。 
隐藏 各 种 各 样 的 硬件 组 件 、 操 作 系 统 、 通 信 协 议 。 

为 系统 开发 者 和 集成 商 提供 统一 、 标 准 、 高 水 平 的 接口 ， 使 得 应 用 能 够 轻松 地 组 装 、 重 
用 、 移 植 和 相互 操作 。 
e 提供 一 套 通用 服务 来 运行 不 同 目的 的 功能 ， 这 些 功 能 能 够 避免 重复 性 工作 和 为 各 种 应 用 
之 间 的 合作 提供 便利 。 

中 间 的 软件 层 就 叫做 中 间 件 。 中 间 件 本 质 上 提供 给 一 个 独立 的 程序 作为 不 同 客 户 和 服务 系 
统 之 间 的 接口 。 它 的 主要 功能 就 是 调节 一 个 应 用 程序 的 不 同 部 分 或 是 不 同 应 用 程序 之 间 的 交互 
(更 多 的 信息 参见 middleware. objectWeb. org 和 en. wikipedia. org/wiki/middleware ) 。 

IBM 是 中 间 件 软件 提供 商 中 的 佼佼 者 。 它 为 通信 、 政 府 、 零 售 、 银 行 、 金 融 市 场 和 其 他 行业 
提供 了 很 多 个 性 化 的 解决 方案 。IBM 的 中 间 件 (ibm. com/middleware) 能 够 帮助 自动 化 系统 、 
整合 操作 、 人 之 间 联 系 、 软 件 开发 。Oracle 是 另 一 个 提供 中 间 件 和 服务 的 公司 。 

Oracle Fusion Middleware (OFM, ERR HRA PEHE), H Oracle 公司 的 软件 产品 组 合 组 成 。 
OFM 包含 多 种 服务 : JPEE 和 开发 工具 、 整 合 服务 、 商 务 智能 、 协 同和 内 容 管 理 。OFM 依靠 
BPEL, SOAP, XML, JMS 这 些 开 放 标 准 。 

OFM 提供 开发 软件 、 配 置 、 面 向 服务 架构 的 管理 。 包 括 被 Oracle 叫做 “ 热 拔 插 ” 的 架构 ， 
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这 种 架构 允许 用 户 能 够 更 好 地 利用 现 有 的 应 用 和 其 他 软件 供应 商 (IBM. Microsoft, SAP AG) 提 
供 的 系统 。 更 多 的 细节 参见 en. wikipedia/oracle-fusion-middleware。 


6. 3 节 复 习题 


1. 描述 多 层 应 用 架构 的 基本 元 素 。 

2. 列举 能 够 连接 后 端 数 据 库 和 其 他 交易 处 理 系 统 的 管理 支持 系统 应 用 的 方法 。 
3. BLERP 整合 的 好 处 是 什么 ? 

4. 定义 中 间 件 ， 并 描述 它 的 特性 。 


6.4 面向 需求 的 Bl 
BI 实施 在 某 种 程度 上 说 是 耗费 资金 的 ， 这 可 以 在 以 上 的 讨论 中 看 出 。 现 在 BI 变 得 更 加 负担 
得 起 ， 甚 至 是 对 于 小 型 和 中 性 企业 。 在 这 部 分 我 们 介绍 有 关 面 向 需求 的 BI 的 关键 概念 。 


6.4.1 传统 Bl 的 限制 


BI 解决 方案 最 初 的 时 候 可 能 有 负 的 投资 回报 率 。 原 因 包 括 高 额 的 实施 费用 、 每 个 用 户 的 许 
可 证 费 、 维 护 费 和 咨询 费用 、 在 BI 的 生命 周期 中 积累 的 很 大 的 隐藏 成 本 、 不 能 实现 最 初 的 项 目 
目标 。 传 统 的 BI 供应 商 很 少 能 够 提供 统一 的 报告 和 分 析 方 案 从 而 允许 管理 人 员 实 时 地 应 对 变化 。 
除 此 之 外 ，BI 解决 方案 还 是 很 昂贵 ， 它 们 有 很 长 的 实施 周期 ， 一 般 要 18 个 月 或 者 更 长 ， 这 就 要 
求 在 项 目 周期 中 投入 很 多 有 价值 的 IT 资源 。 最 后 ， 无 期 合同 使 得 客户 不 知道 实施 将 在 什么 时 候 
完成 。 
6.4.2 面向 需求 的 选择 


因此 ， 公 司 特别 是 中 小 公司 (Small to Medium-Sized Enterprise, SEM) 正在 转向 面向 需求 的 
BI 模型 ， 它 是 比 全 面 复 杂 的 、 昂 贵 的 分 析 报 告解 决 方案 节约 成 本 的 替代 方案 。 面 向 需求 的 计算 ， 
也 被 称 做 效用 计算 或 软件 即 服务 (Software as a Service，SaaS) ， 将 在 下 面 进行 描述 。 

软件 作为 服务 (SaaS) 是 一 个 在 需要 的 时 候 ， 可 以 使 用 的 软件 或 者 计算 机 资源 的 配置 模型 。 
它 就 像 电 或 水 一 样 。 在 你 需要 它 的 时 候 使 用 它 ， 并 且 只 为 你 使 用 的 部 分 付费 。 因 此 ， 这 个 概念 也 
被 称 做 是 效用 计算 。 所 以 ， 用 户 不 需要 有 自己 的 硬件 、 软 件 和 其 他 设备 ， 不 需要 维护 它们 。 分 发 
是 由 供应 商 完成 的 ， 供 应 商会 给 客户 发 放 使 用 许可 权 ， 作 为 面向 需求 的 服务 来 使 用 。Saas 软件 
供应 商 可 以 在 他 们 的 Web 服务 器 上 拥有 他 们 的 应 用 或 者 将 应 用 下 载 到 客户 的 设备 上 ， 在 使 用 结 
束 或 者 需求 合同 失效 的 时 候 让 软件 失效 。 面 向 需求 功能 可 能 在 一 个 公司 内 部 分 享 许可 权 或 者 在 
许多 的 公司 中 通过 第 三 方 的 应 用 服务 提供 商 ( Application Service Provider, ASP) 分 享 许可 权 。 所 
有 的 用 户 需 要 一 个 因特网 接 人 和 浏览 器 。 付 费 是 在 实际 使 用 的 基础 上 进行 的 ， 或 者 通过 固定 的 
订阅 费用 (为 给 定数 量 的 用 户 ) 。 


6.4.3 ”关键 特性 和 好 处 


SaaS 的 特性 和 好 处 包括 : 

。 即使 是 在 高 峰 时 候 (任何 一 个 企业 的 需求 )， 具 有 处 理 波动 的 能 力 。 

。 减少 服务 器 硬件 和 服务 器 使 用 的 转换 费用 。 

。 通过 网 络 接 人 ， 可 管理 可 使 用 的 商用 软件 。 

。 在 一 个 集中 地 点 而 不 是 在 每 个 顾客 所 在 地 管理 活动 ， 这 就 使 得 用 户 能 够 通过 网 络 进行 远 
程 接 人 使 用 。 
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。 应 用 的 分 发 通常 都 是 一 对 多 的 模型 ( 单 实例 多 用 户 结构 )， 而 不 是 一 对 一 的 模型 ， 包 括 
架构 、 定 价 、 合 作 和 特性 的 管理 。 

。 集中 的 特性 升级 ， 这 就 使 最 终 的 用 户 避 免 了 下 载 补丁 和 升级 。 

。 经 常 与 更 大 的 网 络 通信 软件 整合 ， 或 者 作为 Mashup 的 一 部 分 或 者 姐 入 一 个 平台 。 

。 起 初 的 费用 会 比 传统 软件 的 许可 费用 低 ， 但 是 会 重复 发 生 。 所 以 从 长 远 来 看 ， 作 为 一 个 
服务 ， 更 像 是 许可 软件 的 维护 费用 。 

。 从 长 期 看 ， 总 成 本 可 能 会 高 于 或 者 低 于 、 甚 至 是 与 购买 软件 或 者 付 许 可 费 相 同 。 但 是 ， 
在 短期 内 使 用 SaaS 费用 要 低 。 

。 顾客 更 多 的 功能 要 求 ， 因 为 经 常 要 求 新 的 功能 没有 边际 成 本 。 

。 更 快 的 功能 发 布 ， 因 为 全 体 用 户 群 均 能 在 新 功能 中 受益 。 

© 最 被 认可 的 实践 体现 ， 因 为 客户 群 会 迫使 软件 出 版 者 提供 最 好 的 应 用 。 

© SaaS 应 用 的 发 展 可 能 应 用 多 种 软件 组 件 和 架构 。 这 些 工具 能 够 减少 产品 到 达 市 场 的 时 间 
并 降低 转换 一 个 传统 的 软件 产品 的 成 本 或 者 开发 或 者 部 署 一 个 新 的 SaaS 应 用 的 费用 。 

。 就 像 其 他 的 软件 一 样 ， 软 件 即 服务 也 能 利用 面向 对 象 架构 (Service Oriented Architecture, 
SOA) 来 使 软件 应 用 程序 能 够 彼此 通信 。 每 个 软件 服务 可 能 也 是 服务 要 求 者 ， 从 其 他 的 
系统 载 人 数据 和 功能 。 在 开发 SaaS 时 ,企业 资源 规划 (Enterprise Resource Planning, 
ERP) 软件 供应 商 使 用 SOA。 一 个 例子 就 是 来 自 SAP AG 公司 的 SAP Business ByDesign。 

面向 需求 的 BI 给 了 中 小 企业 在 今天 快 节奏 的 竞争 市 场 中 所 需要 的 : 一 个 简单 好 用 、 人 快速 部 

署 、 合 理 价格 的 解决 方案 。 面 向 需求 模型 为 企业 提供 了 低 风 险 机 会 来 使 用 BI， 不 用 投入 巨大 、 
昂贵 的 管理 费用 和 有 风险 的 项 目 。 随 着 更 多 的 中 小 企业 获得 了 正 的 投资 回报 率 和 成 功 使 用 面向 
需求 的 BI 的 模型 ， 我 们 能 够 看 到 即使 是 大 公司 也 会 采用 这 种 模型 。 应 用 案例 6. 1 中 提供 了 一 个 
这 样 的 应 用 案例 。 





应 用 案例 6. 1 ”零售 商 使 用 基于 需求 的 Bl 


Casual Male Retail Group 是 一 个 专门 经 营 体型 高 大 的 男士 服装 的 供应 商 ， 它 拥有 520 KF 

售 直销 店铺 和 电子 商务 运营 ，2009 年 的 销售 额 有 50 000 万 美元 。 公 司 以 前 使 用 遗留 应 急 报 告 

应 用 来 解决 它 的 目录 操作 。 但 是 ， 系 统 的 报告 功能 非常 弱 ， 对 于 业务 只 有 很 少 的 可 见 性 。 例 
如 ， 信 息 经 理 不 知道 他 们 正在 销售 了 什么 商品 ， 每 种 型 号 的 利润 等 实时 信息 。 

公司 使 用 提供 不 受 欢迎 报告 的 传统 BI (缺乏 例外 情况 报告 功能 )。 用 户 到 打印 机 前 取得 

数 百 页 的 打印 输出 。 有 趣 的 是 ， 旧 系统 包括 所 有 需要 的 信息 。 然 而 ， 用 户 不 能 以 一 种 赁 直觉 

的 简单 方式 获得 实时 的 业务 销售 和 库存 趋势 的 目录 。 当 Casual Male Retail Group 使 用 Oco 公司 

提供 的 基于 需求 的 HI 之 后 ， 这 种 情况 得 到 了 改善 ， 这 种 应 用 收集 Casual Male 的 所 有 数据 ， 

为 它 的 异地 网 点 建立 和 维护 一 个 数据 仓库 ， 生 成 实时 响应 的 能 够 使 用 户 一 点 鼠标 就 能 获得 所 

有 信息 的 报告 仪表 盘 。 应 用 基于 需求 的 BI 系统 ， 商 品 计划 者 和 购买 者 能 够 轻松 地 通过 仪表 盘 

获得 全 部 的 目录 数据 。 这 就 使 得 用 户 能 够 准确 地 知道 任何 时 候 在 每 个 店铺 哪 种 类 型 的 服装 正 

在 销售 。 同 样 他 们 知道 还 有 多 少 库存 ， 哪 里 出 现 了 短缺 。 
来 源 : Compiled from Wailgum,T. ,“ Business Intelligence and On-Demand; The Perfect Marriage?” CIO Magazine ,2008 , 
at www. cio. com/article/206551 /Business_Intelligence_and_On_Demand_The_Perfect_Marriage_( ac- 





cessed 2010) ,advice. cio. com/thomas_wailgum/dont_make _business _intelligence__suck _for_users ( ac- 








cessed 2010) ,and Casualmale. com( accessed 2010). 
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基于 需求 的 BI 的 限制 ”以 下 是 一 些 基于 需求 的 BI 的 限制 : 

1. 将 供应 商 的 软件 和 公司 软件 整合 可 能 是 困难 的 。 

2. 供应 商 可 能 歇业 ， 使 得 公司 不 能 获得 服务 。 

3. 为 了 更 好 满足 用 户 需 要 ， 去 改变 主要 软件 是 非常 困难 或 是 不 可 能 的 。 
4. 升级 可 能 成 为 一 个 问题 。 

5. 可 能 泄露 战略 信息 给 陌生 人 。 


6. 4 节 复 习题 


1. 什么 是 基于 需求 的 BI? 
2. 基于 需求 的 BI 的 主要 优点 是 什么 ? 
3. 基于 需求 的 BI 的 主要 缺点 是 什么 ? 


6.5 法律、 隐私 和 道德 问题 
在 BI 实施 中 会 遇 到 几 个 重要 的 法 律 、 隐 私 和 道德 问题 。 我 们 提供 具有 代表 性 例子 和 一 些 资源 。 


6. 5. 1 法 律 问题 


BI 的 引入 ， 特 别 是 自动 化 推荐 的 使 用 可 能 产生 与 计算 机 系统 相关 的 法 律 问题 。 例 如 ， 智 能 
系统 提供 的 建议 的 责任 问题 只 是 刚刚 开始 被 人 们 关注 。 另 外 一 个 例子 是 将 计算 机 分 析 的 使 用 作 
为 一 种 不 公平 的 竞争 手段 (20 世纪 90 年代， 曾经 有 个 一 个 对 航空 订 票 系统 使 用 计算 机 定价 的 知 
名 的 争论 )。 

除了 解决 一 些 BI 系统 没有 预料 到 的 可 能 造成 危害 的 争论 外 ， 其 他 复杂 的 问题 也 会 出 现 。 例 
如 ， 如 果 一 个 公司 在 使 用 了 智能 BI 分 析 之 后 破产 了 ， 谁 应 该 负责 ? 没有 充分 地 进行 测试 就 将 敏 
感 数 据 委托 给 BI， 公 司 应 该 负责 吗 ? 审计 和 会 计 公司 应 该 对 没有 提供 合适 的 审计 测试 而 负责 吗 ? 
软件 开发 商 是 否 应 该 负 有 连带 责任 ? 请 考虑 下 面具 体 的 问题 : 

e 当 专 业 知识 被 编写 进 BI 分 析 系 统 的 时 候 ， 法 庭 中 一 个 专家 建议 的 价值 是 什么 ? 

。 自动 化 BI 提供 的 错误 决策 信息 谁 应 该 负责 任 ? 例如 ， 经 理 接 受 电脑 做 出 了 错误 诊断 ， 并 

做 出 了 对 员工 有 负面 影响 的 决策 时 将 会 发 生 什 么 ? 
。 当 一 个 经 理 输 入 了 错误 的 信息 到 BI 系统 中 后 ， 对 于 公司 或 者 人 员 造 成 了 很 大 的 伤害 时 ， 
将 会 发 生 什么 ? 

e 谁 拥有 BI 知识 库 中 的 知识 ? 

e 管理 者 能 够 强迫 经 理 使 用 BI 系统 吗 ? 

以 下 是 其 他 需要 考虑 的 问题 : 


6.5.2 ”隐私 


对 于 不 同 的 人 ， 隐 私 意味 着 不 同 的 事情 。 通 常 ， 隐 私 是 自己 独处 的 权利 ， 不 受 不 合理 人 身 攻 
击 的 权利 。 在 许多 国家 ， 隐 私 已 经 是 一 个 法 律 、 道 德 和 社会 问题 。 隐 私 权 在 美国 的 各 个 州 和 其 他 
国家 已 经 有 法 规 和 法 律 来 保护 。 隐 私 的 定义 可 以 被 解释 的 非常 宽泛 。 然 而 ， 下 面 的 两 条 规则 在 过 
去 的 法 庭 决策 中 被 遵守 (1) 隐私 权 不 是 绝对 的 。 隐 私 在 面 对 社 会 需要 的 时 候 是 可 以 平衡 的 ; 
(2) 公众 知情 权 高 于 个 人 的 隐私 权 。 这 两 条 规则 表明 为 什么 在 许多 情况 下 ， 决 定 和 实施 隐私 法 
规 是 非常 困难 的 。 隐 私 问 题 有 自己 的 特点 和 政策 。 数 据 仓 库 环境 中 隐私 和 安全 问题 ， 参 见 Elson 
and LeClerc (2005) 。 存 在 危险 性 的 隐私 区 域 将 在 下 面 进行 讨论 。 

收集 私人 信息 实施 BI 可 能 需要 员工 个 人 的 数据 。 在 许多 案例 中 ， 对 数据 进行 收集 、 分 类 、 
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备案 和 手工 连接 不 同 数据 源 (公众 或 公司 ) 的 信息 的 复杂 程度 就 是 一 种 内 置 的 保护 ， 用 来 防止 
对 于 个 人 信息 的 滥用 。 侵 犯 个 人 隐私 太 昂贵 、 沉 重 和 复杂 了 。 因 特 网 与 大 型 数据 库 、 数 据 仓库 、 
社交 网 络 ， 已 经 开创 了 连接 和 使 用 个 人 信息 的 全 新 维度 。 系 统 能 够 连接 巨大 数量 数据 的 内 在 力 
量 能 够 对 社会 和 公司 带 来 好 处 。 例 如 ， 通 过 计算 机 将 记录 进行 匹配 ， 就 能 够 减少 或 者 消除 诈骗 、 
犯罪 和 公司 的 管理 不 善 。 然 而 ， 为 了 公司 能 够 防止 诈骗 ， 个 人 在 隐私 损失 方面 应 该 付 给 一 个 什么 
价格 ? 员工 隐私 信息 可 能 有 助 于 做 出 更 好 的 决策 ， 但 是 员工 的 隐私 可 能 受到 影响 。 对 于 顾客 信息 
同样 会 产生 相似 的 问题 。 

网 络 和 信息 收集 ”因特网 提供 了 许多 收集 个 人 隐私 信息 的 机 会 。 以 下 是 一 些 能 够 使 用 的 方式 : 

。 通过 阅读 个 人 社交 网 络 简介 和 帖子 
在 网 络 目录 中 查看 个 人 姓名 和 身份 
通过 阅读 个 人 邮件 、 博 客 和 帖子 中 的 讨论 
通过 窃听 员工 的 有 线 和 无 线 通 信 
通过 监视 员工 
通过 要 求 个 人 填写 网 络 注 册 
当 他 用 一 个 浏览 器 导航 时 ， 通 过 使 用 间谍 软件 记录 个 人 行动 

能 够 允许 用 户 使 用 一 个 供应 商 的 产品 连接 到 不 同 服务 的 单 点 登录 设备 正在 引起 和 Cookies 一 样 
的 担忧 。 因 特 网 服务 (例如 Yahoo、MSN) 让 用 户 永久 地 输入 一 个 信息 简介 和 密码 ， 在 不 同 的 站 点 
重复 地 使 用 服务 。 批 评 家 说 这 样 的 服务 创造 了 和 Cookies 同样 的 侵犯 个 人 隐私 的 机 会 。 

在 BI 分 析 、 公 司 管理 和 法 律 和 法 规 实施 中 使 用 数据 仓库 和 挖掘 技术 ， 可 能 会 引起 人 们 对 于 
隐私 的 担忧 。 这 些 由 数据 挖掘 和 商业 分 析 的 感知 能 力 产 生 的 担忧 将 必须 在 BI 开发 最 开始 之 时 进 
行 解决 。 

移动 用 户 隐私 ”许多 用 户 不 是 很 清楚 私人 信息 正在 通过 移动 个 人 数字 移动 助理 (Personal 
Digital Assistant, PDA) 或 者 手机 被 跟踪 。 例 如 ， 感 知 网 络 模型 的 建立 ， 是 利用 移动 电话 公司 从 
一 个 到 另外 一 个 电话 塔 跟踪 用 户 手 机 得 来 的 数据 ， 或 者 利用 GPS 工具 传输 用 户 地 点 信息 ， 或 者 
利用 PADS 在 Wi-Ki 无 线 热点 处 传递 的 信息 。 这 样 的 信息 能 够 应 用 在 BI 分 析 中 。 感 知 网 络 认为 
公司 在 用 户 隐私 方面 要 非常 小 心 。 


6.5.3 ”决策 和 支持 中 的 道德 问题 


BI 和 计算 机 决策 支持 涉及 多 个 道德 问题 。Chae et al. (2005) 提供 了 道德 问题 形成 和 决策 的 
全 面 概述 ， 它 提出 了 道德 问题 形成 模型 (如 图 6-3 所 示 )。 












































展开 控制 阐述 © 
© 利益 相关 者 问题 
: vipa | 公式 化 阐述 [ 一 
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(S)- 利益 相关 者 





图 6-3 道德 问题 形成 模型 
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在 BI 实施 中 ， 比 较 有 趣 的 、 具 有 代表 性 的 道德 问题 包括 以 下 内 容 : 
e 电子 监视 

e BI 设计 中 的 道德 问题 

e 个 人 隐私 的 侵犯 

e 数据 库 所 有 权 的 使 用 

© 诸如 知识 和 专业 知识 等 知识 产权 的 使 用 

o 数据 、 信 息 和 知识 的 准确 性 

。 信息 的 可 得 性 

公司 计算 机 非 工 作 目 的 的 使 用 问题 

e 多 少 决策 委托 给 计算 机 

个 人 价值 在 BI 和 决策 的 道德 问题 中 是 主要 的 组 成 因素 。 因 为 它 的 多 维 性 ， 所 以 BI 中 的 道德 
问题 的 研究 很 复杂 (Chae et al. ，2005 ) 。 所 以 ， 开 发 框架 描述 道德 进程 和 系统 是 非常 有 意义 的 。 
Mason et al. (1995) 解释 了 技术 和 改革 扩大 了 道德 领域 的 范围 ， 并 讨论 了 一 个 道德 模型 ， 道 德 
论证 包括 了 4 个 基本 关键 问题 : WERE? 实际 或 预期 采取 什么 行动 ? 行动 的 结果 是 什么 ?结果 
是 否 公 平 ? 还 是 只 对 相关 利益 者 公平 ? 它们 同样 描述 了 道德 等 级 论证 ， 哪 些 道德 判断 或 者 行动 是 
基于 道德 准则 的 ， 哪 些 是 基于 原则 的 ， 哪 些 是 围绕 道德 理论 的 。 更 多 决策 中 的 道德 问题 参见 Mu- 
rali (2004), 

使 用 网 络 做 与 工作 无 关 的 事 ”员工 试图 使 用 电子 邮件 和 电子 商务 网 站 等 从 事 与 工 作 无 关 的 
事 。 在 一 些 公 司 中 ， 这 种 使 用 大 大 超过 了 基于 工作 目的 使 用 的 比例 (Anandarajan，2002 ) 。 问 题 
有 多 个 方面 。 例 如 ， 电 子 邮 件 能 够 被 用 来 打扰 其 他 的 员工 。 这 就 给 公司 带 来 了 威胁 。 它 能 够 被 用 
来 实施 非法 赌博 活动 (例如 ， 对 于 一 场 球赛 的 结果 下 注 )。 一 些 员 工 利用 公司 电子 邮件 做 广告 或 
是 进行 他 们 自己 的 业务 。 最 后 但 并 不 是 最 不 重要 的 就 是 在 工作 时 间 ， 员 工 花费 在 与 工作 无 关 的 
网 点 和 在 社交 网 站 交流 浪费 的 时 间 。 


6. 5 节 复 习题 


1. 列举 BI 的 一 些 合法 问题 。 

2. 描述 BI 中 对 于 隐私 担忧 问题 。 
3. 解释 对 于 网 络 隐私 的 担忧 。 

4. 列举 BI 中 的 伦理 问题 。 

5. 将 BI 与 隐私 相 联系 。 


6.6 BI 中 的 新 兴 话 题 ， 概述 

BI 正在 变 成 应 用 的 主要 领域 ,在 这 个 领域 中 ,公司 正在 投入 大 量 的 资源 并 希望 获得 包括 竞 
争 优 势 在 内 的 主要 收益 。 所 以 ，BI 供应 商 和 实施 公司 都 在 不 断 地 努力 提供 顶尖 技术 。 虽 然 预测 
未 来 哪个 领域 将 会 影响 BI， 或 者 BI 将 会 影响 哪些 领域 是 个 很 大 的 挑战 ， 但 本 章 将 讨论 以 下 问题 ; 

e 与 BI 相关 的 Web 2.0 革命 (6.7 节 ) 

。 与 BI 相关 的 在 线 社交 网 络 (6. 8 节 ) 

。 与 BI 相关 的 虚拟 世界 (6.9 节 ) 

e 社交 网 络 和 BI 的 结合 (6. 10 节 ) 

e RFID 和 BI (6.11 47) 

e 现实 挖掘 (6. 12 节 ) 
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商务 智能 的 未 来 趋势 


Gartner 公司 预测 9 (Gartner, 2009) BI 市场 中 的 以 下 发 展 情况 : 

© 到 2012 年 ， 业 务 单位 会 将 40% 的 总 预算 投入 BI 中。 

e 到 2010 Æ, 20% 的 组 织 会 将 一 个 特定 行业 的 分 析 应 用 作为 他 们 BI 组 合 的 标准 部 分 ， 这 
些 应 用 是 通过 软件 即 服务 提供 的 。 

© 在 2009 年 ， 协 同 决策 将 会 作为 新 的 产品 种 类 出 现 ， 它 将 社交 软件 和 BI 平台 特性 进行 
整合 。 

e 到 2012 年 ， 在 商业 过 程 分 析 上 ，173 的 应 用 将 通过 细 粒 应 用 聚合 提供 。 

由 于 缺乏 信息 、 流 程 和 工具 ， 到 2012 年 超过 35% 的 前 5 000 家 跨国 公司 将 会 逐渐 失去 他 

们 对 市 场 和 业务 做 出 深入 决策 的 能 力 。 


6.7 Web 2.0 创新 


Web 2. 0 是 一 个 描述 高 级 Web 技术 和 应 用 的 流行 术语 ， 包 括 博客 、Wiki、RSS、mashup、 用 
户 产生 内 容 和 社交 网 络 。Web 2. 0 的 主要 目标 就 是 提高 创造 力 、 信 息 共享 和 合作 。Web 2. 0 和 传 
统 Web 的 最 重大 区 别 就 是 因特网 用 户 和 其 他 用 户 之 间 、 内 容 提供 者 和 企业 之 间 更 多 的 合作 。 作 
为 新 兴 技术 、 趋 势 和 原则 的 总 称 ，Web 2. 0 不 仅仅 改变 了 网 络 的 内 容 ， 而 且 它 也 改变 了 它 的 工作 
方式 。Web 2. 0 概念 已 经 导致 了 基于 Web 的 虚拟 社区 及 其 主要 服务 的 革命 ， 例 如 社交 网 络 站 点 、 
视频 分 享 网 站 等 。 许 多 人 相信 公司 理解 这 些 新 的 技术 和 应 用 ， 并 尽早 应 用 这 些 性 能 ， 代 表 其 内 部 
业务 流程 和 市 场 的 极 大 改进 。 最 大 的 优势 就 是 更 好 地 与 顾客 、 合 作者 、 供 应 商 和 内 部 用 户 之 间 进 
行 合作 。 


6.7.1 Web 2.0 的 典型 特征 


以 下 是 Web 2.0 环境 的 典型 特征 : 

。 对 用 户 的 知识 进行 收集 的 能 力 。 用 户 贡 献 得 越 多 ，Web 2.0 站 点 就 变 得 越 流 行 和 有 价值 。 

© 数据 以 一 种 新 的 或 者 从 未 使 用 过 的 方式 使 用 。Web 2.0 数据 能 够 进行 混合 或 者 “ 混 聚 ”， 
通常 是 一 种 Web 2.0 界面 以 一 种 舞蹈 俱乐部 DJ 混 音 的 方式 进行 。 

© Web 2. 0 依赖 于 用 户 产 生 和 控制 的 数据 。 

© 轻 量 级 编程 技术 和 工具 让 每 个 人 能 够 作为 一 个 网 站 开发 者 。 

。 软件 升级 周期 的 虚拟 消失 使 得 每 种 东西 都 是 永久 的 测试 版 或 者 工作 进度 ， 并 且 人 允许 将 

Web 当做 应 用 平台 来 快速 地 生成 原型 。 

用 户 能 够 通过 浏览 器 使 用 整个 应 用 。 

参与 架构 和 数字 民主 鼓励 用 户 在 他 们 使 用 的 时 候 为 应 用 添加 价值 。 

重点 就 是 社交 网 络 、 社 交 计 算 和 社交 软件 。 

为 信息 分 享 和 合作 提供 革命 性 的 支持 。Web 2. 0 中 使 用 快速 、 持 续 的 、 新 的 商务 模型 。 
Web 2.0 其 他 重要 的 特征 是 它 的 动态 性 内 容 、 丰 富 的 用 户 经 验 、 元 数据 、 可 扩展 性 、 开 源 基 

础 和 自由 【〈 网 络 中 立 ) 。 多 数 的 Web 2. 0 应 用 拥有 基于 Ajax 的 丰富 、 交 互 、 面 向 用 户 或 者 相近 的 

框架 。Ajax 是 一 个 用 来 创建 交互 Web 应 用 程序 的 有 效 的 网 络 开 发 技术 。 它 的 目的 是 通过 与 界面 

之 后 的 服务 器 进行 小 数量 的 数据 交换 使 得 网 页 反应 更 加 快捷 ， 使 用 户 在 每 次 做 出 改变 时 ， 整 个 

网 页 不 需要 重新 载 人 。 这 就 意味 着 增加 网 页 的 可 交互 性 、 下 载 速度 和 有 用 性 。 





© ”这 是 指 2009 年 的 预测 。 一 一 编辑 注 
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6.7.2 Web 2.0 公司 和 新 的 商业 模型 


Web 2.0 主要 的 特征 是 创新 网 站 的 全 球 化 传播 和 公司 启动 。 当 一 个 成 功 的 理念 在 一 个 国家 当 
做 网 站 来 部 署 时 ， 其 他 的 网 站 就 会 在 全 球 出 现 。 本 书 这 部 分 将 呈现 这 些 网 站 。 例 如 ， 将 近 120 家 
公司 在 很 多 国家 致力 于 提供 Twitter-like 服务 。 关 于 Web 2.0 的 一 些 非常 好 的 资源 可 以 参考 CIO 的 
«Executive Guide: Web 2.0) (参见 searchcio. techtarget. com/general/0 , 295582, sid19 _ 
gci1244339 ,00. html#glossary ) 。 

从 Web 2.0 中 新 兴 的 一 个 新 的 商务 模型 是 “群众 的 力量 ”的 积累 ， 这 一 商务 模型 的 潜力 是 
无 限 的 。 例 如 ，Wikia (wikia. com) 是 一 个 专门 从 事 基 于 社区 开发 的 网 络 搜索 。 如 果 它 们 能 够 成 
J, 谷歌 将 会 有 一 个 挑战 者 。 

许多 公司 为 Web 2.0 提供 技术 ， 许 多 公司 为 社交 网 络 提供 基础 设备 和 服务 。 从 2005 年 到 
2008 年 间 出 现 了 许多 初创 公司 。 关 于 25 个 最 热 的 Web 2.0 公司 和 驱动 它们 最 有 力 的 趋势 ， 参 见 
money. cnn. com/magazines/business2/business2_archive/2007/03/01/8401042/index. htm, 


6.7 节 复 习题 


1. 定义 Web 2.0。 
2. 列举 Web 2. 0 的 主要 特征 。 
3. 从 Web 2.0 出 现 的 新 的 商业 模型 有 哪些 ? 


6.8 在 线 社交 网 络 : 基础 和 示例 

社交 网 络 建立 在 这 样 一 种 思想 上 : 有 一 种 人 们 如 何 相互 认识 和 交流 的 结构 。 最 基本 的 前 提 
是 社交 网 络 给 予 人 们 分 享 、 使 世界 变 得 更 加 开放 和 联系 的 能 力 。 虽 然 社交 网 络 通常 是 在 诸如 
MySpace, Facebook 这 类 社交 网 络 上 进行 的 ， 但 它 的 一 些 特征 也 能 在 Wikipedia, YouTube 中 找到 。 


6.8.1 定义 和 基本 信息 


社交 网 络 是 一 个 人 们 能 够 建立 自己 的 空间 或 者 网 页 ， 能 够 在 空间 中 写 博 客 ， 传 照片 、 视 频 或 
者 音乐 ， 分 享 思想 ， 链 接 到 他 们 认为 有 趣 的 网 站 。 另 外 ， 社 交 网 络 的 成 员 能 够 标记 它们 创作 的 内 
容 ， 用 他 们 自己 选择 的 关键 词 来 发 布 ， 这 就 使 得 这 些 内 容 是 可 以 找到 的 。 社 交 网 络 站 点 的 大 量 使 
用 是 人 类 社会 交往 方面 的 一 场 革命 。 

社交 网 络 的 大 小 ”社交 网 络 正在 快速 地 成 长 ， 有 些 已 经 拥有 了 超过 10 000 万 的 用 户 。 一 个 
典型 的 成 功 网 站 第 一 年 用 户 的 增长 率 是 40% ~50% ， 以 后 是 15% ~25%。 包 括 用 户 数 量 信 息 的 
一 些 主要 网 站 参见 en. wikipedia. org/wiki/List_of_social_networking_Websites , 

社交 网 络 分 析 软 件 ”社交 分 析 软 件 是 用 来 识别 、 呈 现 、 分 析 和 可 视 化 网 络 结 点 ， 或 者 利用 各 
种 类 型 的 输入 数据 (相关 的 或 是 不 相关 的 ) 和 社交 网 络 的 数学 模型 模拟 网 络 结 点 (例如 ， 代理， 
组 织 或 是 知识 ) 和 边缘 (关系 )。 存 在 许多 输入 输出 文件 格式 。 

网 络 分 析 工 具 使 研究 人 员 能 够 研究 不 同形 式 和 大 小 的 网 络 ， 从 小 型 ( 家庭、 项目 团队 ) 到 
大 型 。 社 交 网 络 的 可 视 化 表现 对 于 理解 网 络 数 据 的 传输 和 分 析 结 果 是 非常 重要 和 流行 的 。 

一 些 能 够 实现 这 些 显 示 的 有 代表 性 的 表达 工具 是 : 

e 面向 商务 的 社交 网 络 工具 ， 例 如 Inflow 和 Netminer。 

© 社交 网 络 可 视 化 或 SoeNetV， 它 是 基于 Linux 开源 的 包 。 

关于 细节 ， 参 见 en. wikipedia. org/wiki/List_of_social_network_analysis_software , 

社交 网 络 与 移动 设备 和 网 络 密切 相关 。 
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6.8.2 移动 社交 网 络 


移动 社交 网 络 指 的 是 成 员 相 互 之 间 使 用 手机 或 者 其 他 移动 设备 进行 联络 的 社交 网 络 。 像 
MySpace 和 Facebook 这 样 的 社交 网 络 站 点 现在 的 趋势 是 提供 移动 服务 。 有 些 社交 网 络 站 点 仅 提供 
移动 服务 (如 Brightkite 和 Fonll ) 。 

有 两 种 类 型 的 社交 移动 网 络 。 第 一 种 是 与 无 线 供应 商 合作 通过 在 手机 浏览 器 上 的 默认 起 始 
网 页 来 分 布 它们 的 社区 。 例 如 ， 用 户 能 够 通过 美国 电话 电报 公司 (ATAT) 的 无 线 网 络 连接 
MySpace。 第 二 种 类 型 是 没有 这 样 的 供应 商 关 系 (被 称 为 “远程 传送 ”) ， 依 赖 它们 自己 的 方法 来 
吸引 客户 。 第 二 种 类 型 的 代表 包括 Mocospace (mocospace. com) 和 Mobikade (mkade. com), 

Windows Live Spaces mobile 能 够 在 移动 设备 上 使 用 有 限 的 屏幕 和 缓慢 的 数据 链接 观看 。 它 允 
许 用 户 在 它们 的 移动 设备 上 浏览 和 添加 照片 ， 进 入 博客 ， 直 接 发 表 评 论 。 然 而 ， 它 也 引进 了 其 他 
的 特征 来 发 展 用 户 使 用 手持 设备 的 体验 。 

关于 更 多 Windows Live Spaces mobile 的 人 信息， 参见 mobile. spaces. live.com 和 
en. wikipedia. org/wiki/Windows_Live_Spsces_Mobiles , 

移动 社交 网 络 在 日 本 、 韩 国 、 中 国 比 在 西方 流行 ， 主 要 是 由 于 更 好 的 移动 网 络 和 数据 价格 
(在 日 本 统一 费 率 是 非常 普遍 的 ) Web 2. 0 服务 和 公司 数量 的 激增 ， 意 味 着 很 多 基于 移动 电话 和 
手持 设备 的 社交 网 络 的 出 现 ， 将 对 这 种 网 络 的 普及 扩展 到 数 百 万 不 能 经 常 和 轻易 接触 到 电脑 的 
人 们 。 

随 着 现行 软件 功能 的 实现 ， 在 移动 社交 网 络 内 的 交流 不 再 仅仅 是 一 对 一 的 、 交 换 纯 文本 信 
息 。 在 许多 情况 下， 它们 正在 朝向 网 络 虚拟 社区 的 复杂 交流 发 展 。 

移动 公司 网 络 许多 公司 已 经 开发 (或 完全 资助 ) 移动 社交 网 络 。 例 如 ， 在 2007 年 , 为 了 
吸引 年 轻 人 购买 它 的 苏打 水 和 其 他 产品 ，Coca- Cola 公司 开发 了 一 个 仅 能 通过 手机 访问 的 社交 
网 络 。 

移动 社区 活动 ”在 许多 移动 社交 网 络 中 ， 用 户 能 够 使 用 移动 设备 来 创作 它们 的 组 合 ， 交 友 ， 
加 入 聊天 室 ， 创建 聊 天 室 ， 进 行 私 人 对 话 和 分 享 照片 、 视 频 和 博客 。 有 些 公司 提 供 无 线 服务 使 它 
们 的 顾客 能 够 建立 自己 的 移动 社区 并 给 它们 命名 (如 Sonopia 公司 的 sonopia. com) o 

通常 与 照片 分 享 结合 的 移动 视频 分 享 是 一 个 新 的 技术 和 社交 网 络 方向 。 移 动 视频 分 享 门户 
网 站 变 得 非常 流行 (参见 myubo. com 和 myzenplanet. com) 。 许 多 社交 网 络 站 点 提供 移动 服务 。 
例如 ，MySpace 与 美国 无 线 供应 商 有 合作 协议 来 支持 它 的 MySpace 移动 服务 。 同 样 的 ，Facebook 
通过 某 些 无 线 供应 商 实 现在 美国 和 加 拿 大 都 可 访问 。Bebo 在 英国 和 爱尔兰 与 02 无 线 合 作 。 这 些 
现象 正 是 在 建立 多 媒体 网 络 社交 站 点 竞争 中 的 下 一 步 措施 。 有 些 人 认为 这 些 合作 与 其 说 是 推动 
社交 网 络 站 点 ， 还 不 如 说 是 在 销售 手机 ; 然而 社交 网 络 很 高 兴 能 够 获得 剩余 的 关注 。 


6.8.3 主要 的 社交 网 络 服务 : Facebook 和 Orkut 


既然 我 们 已 经 熟悉 了 一 些 社交 网 络 服务 ， 下 面 在 我 们 更 仔细 地 研究 一 些 非常 流行 的 服务 。 

Facebook: 网 络 效应 ”由 哈佛 学 生 Mark Zuckerberg 2004 年 创建 的 Facebook 是 全 球 第 二 大 
社交 网 络 服务 网 站 ， 在 2009 年 3 月 拥有 超过 20 000 万 活跃 用 户 。 当 Zuckerberg 开始 创建 Facebook 
时 ， 他 有 很 强烈 的 社交 抱负 并 想 帮 助人 们 通过 网 络 相互 联系 。 

Facebook 快速 扩展 的 主要 原因 是 网 络 效应 一 一 更 多 的 用 户 意味 着 更 多 的 价值 。 当 更 多 的 用 户 
参与 社交 空间 时 ， 更 多 的 人 就 会 被 联系 上 。 最 初 ，Facebook 是 一 个 针对 大 学 和 高 中 学 生 的 在 线 社 
交 空 间 ， 能 够 自动 连接 在 同一 所 学 校 的 学 生 。 然 而 ，Facebook 意识 到 它 仅仅 能 够 保有 大 学 用 户 4 
年 。2006 年 ，Facebook 对 于 年 龄 在 13 岁 以 上 的 拥有 一 个 有 效 电 子 邮件 地 址 的 用 户 敞 开 了 大 门 。 
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扩展 到 全 球 用 户 ， 使 得 Facebook 与 MySpace 成 为 直接 的 竞争 对 手 。 

今天 ，Facebook 拥有 许多 支持 照片 、 群 组 、 事 件 、 市 场 、 发 布 主 题 和 注释 。Facebook 也 拥有 
一 个 叫做 “你 可 能 认识 的 人 ”的 应 用 ， 这 一 应 用 帮助 用 户 与 他 们 可 能 认识 的 人 进行 联系 。 更 多 
的 应 用 在 持续 地 增加 。Facebook 的 一 个 独特 的 特点 是 新 鲜 事 ， 能 够 使 用 户 跟 踪 它 们 社交 圈 内 朋友 
的 活动 。 例 如 ， 当 用 户 改变 他 的 个 人 资料 时 这 种 更 新 会 通知 订阅 这 种 功能 的 用 户 。 用 户 还 能 够 开 
发 自己 的 应 用 或 者 使 用 其 他 用 户 开发 的 Facebook 应 用 。 

Orkut; 开发 社交 网 络 站 点 的 本 质 特征 ”Orkut 是 土耳其 Google 程序 员 的 心血 结晶 。Orkut 是 
谷歌 针对 MySpace 和 Facebook 实施 的 本 土 策略 。Orkut 使 用 了 与 其 他 网 络 社交 站 点 相似 的 格式 ; 
使 用 各 种 多 媒体 应 用 显示 他 们 期 望 的 生活 的 各 个 方面 的 一 个 网 页 。 

Orkut 的 一 个 主要 亮点 是 个 人 能 力 被 提供 给 创建 自己 的 群 组 和 论坛 〈 被 称 为 社区 ) 的 人 。 谁 
能 够 加 入 和 帖子 如 何 编辑 和 控制 仅仅 由 社区 创建 者 管理 。 管 理 一 个 Orkut 社区 与 管理 一 个 自己 的 
网 站 相似 ， 给 予 创建 者 设计 和 控制 内 容 的 权利 。Orkut 的 用 户 应 用 Web 2. 0 工具 获得 体验 ， 创 造 
在 线 精通 的 浪潮 ， 这 无 疑 对 于 在 线 环境 的 发 展 是 有 益 的 。 

Orkut 认识 到 是 用 户 决定 了 它们 所 选 社交 网 络 站 点 内 容 。 鉴 于 此 ，Orkut 采用 了 很 多 有 趣 的 方 
法 。 首 先 增加 了 更 多 的 语言 ， 扩 大 到 印 地 语 、 孟 加 拉 语 、 泰 米尔 人 语 等 ， 这 增加 了 网 站 的 知名 度 
并 改善 了 用 户 对 网 站 的 控制 。 第 二 ，Orkut 为 它们 的 用 户 在 国家 和 宗教 节目 时 提供 有 趣 的 应 用 。 
例如 ， 它 通过 允许 用 户 使 用 排 灯节 主题 颜色 和 装饰 重新 设计 他 们 的 网 站 来 祝贺 印度 用 户 排 灯节 
(en. wikipedia. org/wiki/Diwali) 快乐 。 


6.8.4 商业 和 企业 社交 网 络 的 意义 


虽然 在 公共 社交 网 络 中 ,广告 和 销售 是 电子 商务 活动 的 主要 活动 ， 但 出 现 了 应 用 于 商务 活 
动 的 商务 方向 网 站 ， 例 如 LinkedIn 和 企业 内 社交 网 络 。 

意识 到 了 机 会 ， 许 多 软件 供应 商 正 在 开发 网 络 工具 和 应 用 来 支持 企业 社交 网 络 。 例 如 ，IBM 
Lotus 正在 鼓励 它 的 5 000 多 个 从 事 Notes/Domino, Sametime 和 其 他 Lotus 软件 的 方案 提供 商 ， 以 其 
他 LOTUS 软件 提供 者 ， 添 加 Lotus Connections 到 它们 的 产品 中 ， 建 立 基 于 社交 网 络 技术 的 应 用 。 

下 面 是 企业 社交 网 络 的 代表 区 域 和 示例 。 

发 现 和 招募 员工 ”许多 公共 社交 网 络 ， 特 别 是 商务 方向 的 网 络 能 够 使 招聘 和 应 聘 更 加 的 便 
利 〈Hoover，2007) 。 例 如 ， 招 聘 是 Linkedin 的 主要 活动 并 且 是 站 点 发 展 的 驱动 力 。 为 了 获得 竞 
争 优势 ， 公 司 必须 在 全 球 市 场 寻 找 人 才 ， 它 们 能 够 使 用 全 球 社交 网 络 站 点 找到 他 。 大 的 公司 正在 
使 用 它们 的 内 部 社交 网 络 来 为 空缺 职位 发 现 内 部 人 才 。 应 用 案例 6. 2 讲述 了 一 个 将 BI 和 社交 网 
络 结合 的 应 用 。 





应 用 案例 6. 2 应 用 智能 软件 和 社交 网 络 来 改善 招聘 流程 


网 络 使 广告 和 在 线 申 请 工作 变 成 了 一 个 很 简单 的 过 程 。 然 而 ， 有 时 简单 化 也 会 导致 复杂 
化 。 现 在 对 于 一 些 大 公司 的 挑战 是 如 何以 最 优 的 成 本 管理 在 线 招聘 流程 ， 因 为 在 线 广告 正在 
吸引 大 量 的 应 聘 者 。 例 如 ，Infosys 现在 每 年 收 到 超过 一 百 万 个 工作 申请 者 来 应 聘 9 000 个 职 
位 。 拥 有 如 此 多 的 应 聘 者 听 起 来 可 能 是 好 事 ， 但 是 公司 发 现在 它们 需要 的 技能 和 特性 与 成 千 
上 万 的 应 聘 者 之 间 的 匹配 度 很 低 。 这 样 ， 除 了 吸引 了 很 多 的 应 聘 者 外 他 们 正在 遭受 缺乏 好 的 
应 用 程序 的 痛苦 。 另 外 ， 公 司 如 何 确定 它们 吸引 了 在 某 个 领域 的 最 好 的 人 才 ? 一 些 有 趣 的 新 
发 展 正 在 改变 公司 面临 的 问题 。 
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Trovix (a Monster.com 公司 ) 给 公司 提供 了 一 个 基于 它 的 获奖 HR 软件 的 服务 ， 这 个 智 
能 的 服务 帮助 管理 整个 招聘 流程 。Trovix 说 它 的 工具 Trovix 招募 和 Trovix 智能 搜索 能 够 模仿 人 
类 决策 和 评估 一 个 申请 者 的 数量 、 深 度 、 相 关 性 、 工 作 经 验 的 近似 程度 和 教育 程度 。 坎 件 以 
一 定 的 顺序 排列 ， 满 足 广告 职位 最 好 的 申请 者 。 其 他 功能 能 够 跟踪 申请 者 、 报 告 和 通信 。 有 
些 研究 机 构 也 正在 使 用 这 项 服务 ， 包 括 需要 每 年 有 数 千 个 招聘 职位 的 牛津 大 学 。Trend Micro 
采用 Trovix 并 且 能 够 在 20 分 钟 之 内 屏蔽 700 个 申请 者 和 列 出 前 10 名 申请 者 。 精 确 度 可 能 没 
有 手工 处 理 得 好 ， 但 是 软件 能 够 在 更 短 的 时 间 内 屏蔽 一 些 申 请 者 。 
通过 一 些 社交 网 站 ， 一 些 人 性 化 的 方法 正在 发 挥 作 用 ， 这 些 方法 能 够 为 公司 的 某 个 特定 
职位 找到 最 好 的 人 才 。 这 类 站 点 有 Jobster (jobster.com) 和 更 加 依赖 社交 网 络 方法 的 Linke- 
dIn (linkedin. com) 。 例 如 ，Jobster 上 的 工作 帖子 能 与 其 他 工作 网 站 、 博 客 、 用 户 群 组 、 大 
学 校友 网 站 链接 。 鼓 励 社交 网 络 的 人 去 推荐 适合 某 个 特殊 工作 的 人 才 ， 不 论 他 们 是 否 在 积极 
地 寻找 新 的 工作 。 通 过 这 种 方法 希望 找到 最 好 人 才 的 公司 使 它 的 工作 信息 在 更 广 的 范围 内 发 
布 并 且 能 够 从 口头 推荐 和 推举 获得 好 处 。 例 如 ，LinkedIn 提供 给 有 期 望 的 雇主 一 个 超过 800 
万 人 跨越 130 个 行业 的 网 络 ， 这 就 意味 着 对 于 空缺 职位 更 大 的 上 曝光 和 在 更 广 的 范围 内 寻找 人 
Fo Bite, Jobster 网 站 也 能 够 跟踪 应 聘 者 来 自 哪 里 ， 帮 助 公 司 实施 更 好 的 招聘 策略 和 从 他 们 
寻找 最 好 的 员工 的 投资 中 获得 更 好 的 收益 。 
来 源 : Based on J. McKay,“ Where Did Jobs Go? Look in Bangalore,” Gazette. com, March 21 ,2004 ,post- gazette. com/ 
pg/04081/288539. stm( accessed July 2009 ) and“ Trovix Makes Good at Stanford University ; Premier Educational 


Institution Turns to Intelligent Search Provider for Recruiting Top Talent,” March 8 , 2006, trovix. com/about/ 
press/050806. jsp( accessed July 2009). 











管理 活动 和 支持 ”这 部 分 应 用 与 支持 从 社交 网 络 中 收集 信息 进行 分 析 的 管理 决策 有 关 。 一 
些 典 型 的 例子 ， 包 括 识 别 关键 执行 者 、 定 位 专家 并 找到 能 够 联系 到 他 们 的 路 径 、 征 求 复杂 问 
题 的 想法 和 解决 方案 ， 寻 找 和 分 析 可 能 的 管理 继承 计划 的 候选 者 。 例 如 ，Teloitte Touche Tohm- 
atsu 建立 了 一 个 社交 网 络 来 帮助 人 力 资源 经 理 裁员 和 重新 组 建 小 组 。Hoover 已 经 建立 了 社交 网 
站 ， 该 网 站 使 用 可 视 化 路 径 技术 来 识别 目标 商业 用 户 ， 建 立 关系 和 接触 特定 的 用 户 。 关 于 社 
交 网 站 中 使 用 数据 挖掘 的 社交 网 络 分 析 和 挖掘 的 优势 会 议 (2009 年 7 月 希腊 举行 ) 也 在 讨论 
这 个 问题 。 

培训 多 个 公司 使 用 企业 社交 网 络 和 特殊 的 虚拟 世界 来 进行 培训 。 例 如 ，Cisco 在 产品 培训 
和 执行 情况 简介 的 第 二 个 阶段 正在 使 用 它 的 虚拟 社区 。IBM 也 第 二 个 生命 周期 里 运行 管理 和 顾客 
交互 培训 会 议 。 

知识 管理 和 专家 定位 ”这 部 分 的 应 用 包括 知识 发 现 、 创 造 、 维 护 、 分 享 、 转 移 和 传播 。 
Wagner 和 Bolloju (2005) 曾 详 细 地 讨论 过 论坛 、 博 客 和 对 话 知识 管理 的 维基 百科 的 角色 的 讨论 。 

考虑 下 面 的 关于 知识 管理 和 专家 定位 的 社交 网 络 的 例子 : 

e Innocentive (innocentive. com ) ,一 个 拥有 超过 150 000 名 致力 于 解决 与 科学 相关 问题 

”” 《为 了 现金 奖励 ) 的 研究 人 员 的 社交 网 站 。 

。 Northwestern Mutual Life 创建 了 一 个 拥有 超过 7 000 名 金融 代表 来 分 享 获得 知识 的 内 部 社 

交 网 站 (使 用 Awareness. com 博客 软件 ) 

© Caterpillar 为 员工 建立 了 一 个 知识 网 络 系统 ， 它 甚至 将 它 的 软件 卖 给 了 别 的 公司 

公司 也 在 建设 退休 员工 合作 社交 网 络 来 使 退休 员工 之 间 以 及 和 公司 之 间 保 持 联系 。 这 些 人 
拥有 大 量 的 能 够 增加 生产 力 和 解决 问题 的 知识 。 (如 SelectMinds 的 校友 联系 ) 。 接 下 来 的 几 年 
(每 个 会 议 委 员 会 ) 将 有 6 400 万 名 退休 人 员 ， 获 得 他 们 的 知识 是 非常 关键 的 。 
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加 强 合作 ”社交 网 站 中 的 合作 会 发 生 在 企业 内 部 和 外 部 ， 例 如 ,来 自 不 同 部 门 的 员工 在 一 
个 虚拟 团队 中 工作 。 在 外 部 ， 与 供应 商 、 顾 客 和 其 他 商务 伙伴 进行 合作 。 合 作 通 常 是 在 论坛 和 其 
他 形式 的 群 组 中 利用 维基 百科 (Wiki) 和 博客 进行 的 。 关 于 社交 网 站 合作 的 细节 ， 参 见 Coleman 
and Levine (2008)。 

在 企业 中 使 用 博客 和 维基 百科 (Wiki) ”这 些 工具 的 使 用 正在 快速 地 传播 。Jeffries (2008) 
报告 了 一 项 研究 : 在 以 下 的 应 用 中 ，71% 的 一 流 公司 使 用 博客 ，64% 使 用 Wiki。 
项 目 合 作 和 交流 (63% ) 
处 理 和 程序 文件 (63% ) 
常见 问题 回答 (FAQ) (61% ) 
电子 学 习 和 培训 (46% ) 
新 想法 的 论坛 (41% ) 
公司 专 有 的 动态 的 词汇 和 术语 (38% ) 

。 与 顾客 的 合作 (24% ) 

术语 Web 2.0 是 2004 年 由 OReilly Media 用 来 指 假定 的 第 二 代 互 联网 服务 产品 ， 它 能 够 让 人 
们 使 用 维基 百科 、 博 客 、 社 交 网 络 和 folksonomies 来 创造 和 控制 内 容 ( OReilly，2005 ) 。 认 识 到 
Web 2.0 的 潜质 ， 麻 省 理工 大 学 数字 商务 中 心 (Brynjolfsson and McAffee, 2007) 和 哈佛 商学 院 
(McAfee, 2006 and Cross, 2005) 的 研究 者 将 Web 2. 0 的 概念 延伸 到 Enterprise 2.0 (在 企业 内 部 
使 用 Web 2.0) ， 声 称 Web 2.0 工具 创造 了 一 个 平台 ,反映 了 知识 自然 真实 的 工作 方式 。 这 些 工 
具有 增进 沟通 和 合作 并 帮助 虚拟 团队 决策 流程 的 潜质 。 


.6. 8 节 复 习题 


1. 定义 社交 网 络 。 

2. 列举 社交 网 络 站 点 的 主要 特征 。 

3. 描述 社交 网 络 的 全 球 化 特性 。 

4. 描述 移动 社交 网 络 。 

5. 识别 Facebook 的 主要 战略 问题 (参见 insidefacebook. com 和 facebook. com 的 营销 努力 ) 。 

6. Facebook 的 早期 成 功 归 功 于 它 与 其 成 员 的 网 络 之 间 的 密切 联系 。Facebook 是 如 何在 不 失去 最 初 使 网 
站 流行 的 特点 ， 不 玖 远 现 在 用 户 的 前 提 下 扩大 市 场 的 ? 


6.9 虚拟 世界 

虚拟 世界 已 经 以 多 种 形式 存在 了 很 长 时 间 ， 包 括 立 体 镜 、 电 影院 、 模 拟 器 、 网 络 游 戏 、 头 盔 
展示 。 对 于 我 们 而 言 ， 虚 拟 世界 就 是 电脑 系统 建立 的 虚拟 世界 ， 在 这 里 用 户 有 一 种 沉浸 在 其 中 的 
感觉 。 目 的 就 是 活动 临场 感 和 远 距离 参与 感 。 现 在 流行 的 虚拟 世界 包括 Second Life (second 
life. com) 、Google Lively (lively. com) 和 EverQuest (everquest. com ) 。 关 于 虚拟 世界 的 技术 、 
应 用 、 社 交 和 组 织 问题 更 好 的 综述 能 够 在 Wikipedia (en. wikipedia. org/wiki/Virtual_world) 找 
到 。 在 这 些 虚 拟 世 界 中 ， 树 随 风 动 ， 水 流 成 溪 ， 乌 在 树 上 嘿嘿 叫 ， 卡 车 在 街 上 飞驰 。 用 户 创造 叫 
做 头像 的 数字 人 物 ， 能 够 交互 、 走 路 、 在 电脑 产生 的 场景 中 与 其 他 电脑 产生 的 个 体 谈话 。 有 些 甚 
至 经 营 全 球 业务 。 

真实 世界 的 研究 机 构 ， 从 大 学 到 商业 、 到 政府 组 织 都 在 越 来 越 多 地 将 虚拟 世界 融入 到 自己 
战略 营销 活动 中 。 虚 拟 世 界 正在 变 成 一 个 接触 更 广泛 用 户 的 重要 渠道 ， 以 及 “看 着 ”顾客 并 以 
一 种 几 年 前 还 不 可 能 的 方式 进行 交流 。 诸 如 虚拟 货币 这 样 的 概念 允许 参与 者 买卖 像 服装 和 培训 
这 样 的 货物 或 者 服务 。 虚 拟 世界 提供 丰富 的 广告 形式 ， 这 种 形式 可 以 是 身 临 其 境 的 、 主 动 的 或 者 
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被 动 的 。 除 了 文本 外 ， 广 告 可 以 是 音频 和 视频 ， 这 些 形式 都 是 为 了 增加 产品 知识 和 顾客 购买 欲 
望 。 虽 然 ， 关 于 在 线头 像 在 市 场 营 销 中 使 用 的 研究 还 很 少 ， 但 一 些 证 据 表明 头像 和 虚拟 形象 能 够 
积极 地 影响 信任 和 在 线 购 买 意图 ， 因 为 它们 模拟 顾客 在 真实 世界 中 的 购物 体验 (stuart, 2007). 
然而 ， 并 不 是 所 有 的 真实 世界 的 特性 都 能 够 在 虚拟 世界 中 体验 到 ， 因 为 不 是 所 有 的 人 类 感 党 
(例如 味觉 ) 能 够 数字 化 并 能 在 计算 机 显示 器 上 实现 。 

Second Life 可 以 作为 一 个 有 效 的 商务 工具 。 经 理 们 可 以 将 Second Life 应 用 在 现实 世界 的 决策 
tH, John Brandon 在 Second Life 中 的 顶尖 商务 网 站 一 一 计算 机 世界 (2007) 中 的 一 篇 文章 写 道 : 

使 IBM 存在 甚至 是 非常 有 趣 的 事情 就 是 在 紧 闭 门 后 发 生 的 事情 。 与 顾客 进行 的 常 

规 的 头脑 风暴 会 议 能 够 产生 有 趣 的 想法 ， 例 如 ， 杂 货 商 能 够 在 Second Life 中 销售 他 们 

的 商品 ， 并 将 它们 送 到 家 中 ; 燃气 公司 能 够 举行 正规 的 不 向 公众 开放 的 员工 培训 会 议 。 

将 Second Life 应 用 在 决策 支持 时 需要 精心 计划 。Dan Power 教授 写 了 一 个 关于 虚拟 世界 应 用 
在 决策 方面 的 优势 和 劣势 的 专栏 。 参 见 技术 前 沿 6. 1 中 关于 专栏 的 摘录 。 

虽然 虚拟 世界 正在 变 成 商务 和 顾客 有 趣 的 工具 ， 但 一 些 短期 的 技术 和 实际 的 考虑 正在 阻止 
它们 被 广泛 地 接受 。 例 如 ， 参 与 到 这 些 虚拟 世界 中 需要 下 载 插件 。 然 而 ， 许 多 商业 和 政府 组 织 阻 
止 员 工 下 载 任何 种 类 的 软件 到 他 们 电脑 上 。 这 就 限制 了 这 些 服务 被 员工 使 用 ， 特 别 是 开 员 工 。 

尽管 有 一 些 限 制 ， 但 虚拟 世界 顾客 应 用 正在 高 速 增长 。 本 书 的 合 著者 Sharda 研究 虚拟 世界 
在 贸易 展示 中 的 应 用 。 贸 易 展 示 是 描述 临时 市 场 事件 众多 术语 中 的 一 个 ， 它 通常 隔 一 段 时 期 进 
行 ,在 贸易 展示 中 许多 潜在 买方 和 卖方 为 了 更 多 地 了 解 新 产品 和 服务 进行 交流 。 贸 易 展 示 ， 例 如 
书展 、 技 术 展 和 人 力 资源 展览 FBS) 每 年 在 世界 范围 内 举行 。 


技术 前 沿 6. 1 将 Second Life 作为 决策 支持 工具 

Second Life 作为 决策 支持 工具 具有 以 下 优势 : 

1. 容易 访问 和 低 成 本 ”用 户 可 以 免费 下 载 ， 人 们 不 需要 付 会 费 就 可 以 参与 。 客 户 仍 然 在 发 展 ， 新 的 语 
音 客户 端 被 社区 检验 ， 所 以 软件 需要 每 隔 几 周 就 重新 下 载 更 新 的 版 本 。 

2. 有 经 验 和 忠诚 的 设计 者 /构建 者 ”访问 Second Life 展示 了 可 能 和 奇迹 仍 在 发 生 。Second Life 有 很 少 
的 限制 并 为 开发 者 提供 了 广泛 和 灵活 的 内 容 授权 经 验 。 目 标 、 文 档 和 可 再 次 使 用 的 脚本 的 数量 巨大 ， 设 计 
者 能 够 创造 顾客 头像 、 建 筑 物 和 产品 。 如 果 你 能 够 制作 简略 的 框架 ， 那 么 一 个 好 的 建造 者 能 够 快速 建造 一 


199 


个 原型 。 如 果 提 供 一 个 平面 图 和 尺寸 ， 那么 一 个 建造 者 能 够 复制 你 的 工厂 ， 或 者 给 予 足 够 的 时 间 ， 能 够 复 


制 整 个 城市 。 

3. 交流 驱动 的 决策 支持 工具 和 场地 ”工具 包括 视频 流 、 音 频 流 、 幻 灯 片 和 日 志 、 会 议 管理 工具 、 聊 天 
记录 甚至 是 头像 名 字 标 签 。 

4. 庞大 忠诚 的 用 户 群 在 Second Life 中 ， 雇 人 为 你 的 Second Life 工作 成 本 很 低 。 支 付 用 Linden 
Dollars ， 你 能 够 轻易 地 在 超过 50 个 国家 中 雇佣 到 员工 。 在 Second Life 中 ， 像 Manpower 这 样 的 公司 很 够 帮 
助 整理 员工 问题 。Second Life 是 公司 走向 全 球 化 的 一 个 简单 方法 。 同 样 ， 许 多 用 户 有 很 高 的 计算 机 技能 。 

5. 印象 管理 和 创造 力 增强 ”头像 可 以 是 用 户 想 要 的 任何 形象 。 对 于 某 种 类 型 的 决策 系统 匿名 是 非常 有 
优势 的 。Second Life 打破 了 创造 性 思想 的 壁垒 并 释放 了 想象 力 。 一 些 人 不 愿意 使 用 视频 会 议 ， 因 为 对 于 他 
们 如 何 出 现 有 所 担心 。 使 用 Second Life， 用 户 可 以 有 意识 地 管理 他 们 在 会 议 、 时 间 、 活 动 中 创造 的 想法 。 

6. 时 间 压 缩 Second Life 中 的 一 天 就 是 4 个 小 时 。 人 们 快速 地 交流 并 从 一 个 场地 传递 到 另外 一 个 场地 。 
Second Life 围绕 时 间 进 行 操作 。Second Life 的 7/24/365 性 质 能 够 加 速 行 为 和 改变 用 户 对 于 时 间 的 看 法 。 

7. 使 用 RSS Feed ， 轻 松 地 将 真实 生活 数据 整合 ”将 网 络 资源 和 Second Life 的 数据 整合 的 可 能 性 正在 
大 大 的 增加 。 

8. 鼓励 积极 参与 和 经 验 学 习 人们 体验 Second Life， 这 些 体验 影响 真实 生活 。Second Life 的 会 议 可 以 
是 享受 和 美好 的 。 对 于 虚拟 工厂 的 参观 能 够 帮助 人 们 理解 在 工厂 建造 时 是 什么 样子 。 
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Second Life 作为 决策 支持 工具 具有 以 下 的 劣势 : 

L 学 习 时 间 和 培训 成 本 ”公司 管理 人 员 通 常 对 Second Life 不 熟悉 ， 学 习 曲 线 通常 是 8 小 时 才 会 获得 基 
本 舒服 水 平 。 一 个 好 的 教练 能 够 使 得 学 习 过 程 对 于 一 个 新 接触 的 经 理 更 加 轻松 

2. 分 散 注意 力 Second Life 是 一 个 拥有 许多 正在 进行 活动 的 虚拟 空间 ， 从 购物 到 性 ， 从 海滩 阳光 到 滑 
冰 ， 从 在 浪漫 的 星光 球 室 下 的 舞蹈 到 在 Second Life 犹太 教堂 中 直播 音乐 会 。 一 些 分 散 注意 力 的 事情 是 非常 
有 趣 的 ， 但 是 员工 可 能 在 工作 时 间 使 用 它们 。 同 时 ， 公 司 需要 免责 声明 ，HR 需要 重新 看 待 性 骚扰 的 政策 。 

3. 恶作剧 和 垃圾 邮件 很 普遍 ” 懒 人 会 浪费 太 多 的 时 间 在 Second Life 中 闲 往 。 许 多 人 玩 恶 作 剧 ， 参 与 讨 
厌 的 活动 ， 从 损坏 建筑 到 在 教堂 或 者 会 议 骚 扰 同事 。 存 在 许多 类 型 的 安全 问题 。 

4. 技术 问题 存在 ”一 些 技 术 问 题 包括 反应 慢 ， 调 整 目标 的 滞后 ， 需 要 在 崩溃 之 后 清理 缓存 和 经 常 的 软 
件 升级 。 

5. 聊天 是 一 个 非常 缓慢 的 通信 工具 ”新 的 语音 客户 端 会 加 速 Second Life 中 人 之 间 的 通信 , 但 是 聊天 仍 
然 需 要 ， 特 别 是 在 多 语言 通信 中 的 自动 翻译 器 。 语 音 交流 在 Second Life 的 会 议 中 是 没有 价值 的 。 

6. 对 于 使 用 的 抵抗 。 Second Life 不 像 其 他 管理 人 员 所 经 历 的 其 他 事情 ， 他 们 会 抵触 使 用 这 项 技术 。 非 
常 容易 的 就 将 Second Life 看 做 是 游戏 并 忽视 真实 世界 决策 的 可 能 性 。 

7. 沉迷 ”一些 人 对 于 使 用 Second Life 很 着 迷 ， 并 花费 许多 时 间 在 系统 中 ， 忽 略 了 真实 生活 的 活动 。 公 
司 的 HR 部 门 需要 监督 经 常 使 用 Second Life 的 员工 的 行为 和 态度 。 

来 源 : D. Power, “What Are the Advantages and Disadvantages of Using Second Life for Decision Support?” DSS News, Vol. 8 , 

No. 15 , July 29 ,2007 ,dssresources. com/newsletters/195. php( accessed July 2009). 

实体 贸易 展览 允许 最 常用 的 交流 形式 ， 面 对 面 地 交易 。 传 统 贸 易 展 览 的 不 足 之 处 包括 地 理 
Ril, 运营 时 间 限 制 ， 较 高 的 参与 成 本 ,需要 通过 获取 展台 战略 位 置 获 得 最 大 的 展示 ， 从 贸易 展 
示 中 得 到 最 大 的 利润 。 为 了 让 更 多 的 人 看 见 自己 的 产品 ， 现 在 许多 参与 者 使 用 虚拟 世界 等 新 技 
术 。 一 些 信 息 技术 工具 能 够 模仿 贸易 展示 的 特殊 活动 。 例 如 ， 如 今 非 常 普遍 地 使 用 通过 网 络 传播 
的 在 线 会 议 、 陈 述 、 演 讲 、 研 讨 会 。 这 些 工具 提供 了 从 陈述 者 到 观众 的 单 向 的 沟通 方式 ， 但 是 这 
种 方式 能 够 使 陈述 者 和 观众 之 间 能 够 交互 地 发 出 、 接 收 和 讨论 信息 。 然 而 ， 网 络 研讨 会 不 能 像 传 
统 贸 易 展 览 那样 传递 给 参展 者 相关 的 内 容 、 相 关 利 益 者 信息 和 数据 。 

虚拟 世界 技术 对 于 通过 组 织 虚 拟 事件 来 复制 传统 贸易 展览 的 参与 经 验 是 有 用 的 ， 这 些 虚 拟 
事件 能 够 通过 扩大 事件 的 影响 力 来 吸引 更 多 的 参与 者 和 参展 者 。 虚 拟 的 贸易 展览 在 虚拟 空间 中 
举行 ， 被 看 做 是 实体 展览 的 延伸 或 者 实体 事件 的 场所 。 它 复制 实体 事件 的 许多 信息 交换 、 通 信和 


”群体 集合 方面 。 它 的 结构 通常 包括 一 个 虚拟 的 展厅 ， 具 有 特殊 能 力 的 用 户 通 过 许可 进入 展厅 来 


观看 虚拟 贸易 展览 展示 ， 或 者 建立 虚拟 展台 来 展示 信息 ， 就 像 它们 在 一 个 会 议 中 心中 举行 的 贸 
易 展 销 会 。 虚 拟 贸 易 展 览 可 能 包括 其 他 部 分 ， 例 如 虚拟 网 络 会 议 ， 网 络 研 讨 会 集合 ， 或 者 其 他 的 
教育 展览 。 参 观 者 在 进入 展厅 参观 各 种 展台 之 前 ， 填 写 一 个 在 线 注册 表格 来 创建 一 个 在 线 标志 。 
虚拟 展台 一 般 很 像 真 实 世 界 贸 易 展 览 的 展台 ， 有 桌子 和 用 户 能 够 轻松 得 到 的 展示 。 虚 拟 贸 易 展 
览 能 够 成 为 国际 贸易 展览 、 业 务 媒人 人、 采购 洽 谈 会 和 产品 发 布 会 。 这 种 经 验 同样 适用 于 其 他 的 应 
用 ， 例 如 虚拟 招聘 会 、 虚 拟 福利 博览 会 、 员 工 在 线 网 络 、 分 销 商 展览 会 和 风险 投资 展览 会 。 虚 拟 
世界 和 贸易 展览 之 间 协 同 效应 的 认 知 已 经 被 许多 虚拟 贸易 展览 公司 使 用 。 其 中 一 个 就 是 iTrade- 
Fair com。 图 6-4 是 一 个 虚拟 展台 的 例子 。 

贸易 洽谈 会 的 参加 者 来 到 一 个 特定 的 虚拟 贸易 展览 网 页 。 参 加 者 首先 访问 一 个 虚拟 的 展览 
场地 。 在 虚拟 展览 场地 参加 者 能 够 选择 一 个 虚拟 展台 ， 收 集 信息 或 者 参加 生动 的 交流 和 信息 传 
播 。 通 过 聊天 、Web 回 拨 、 传 真 和 电子 邮件 等 技术 特点 来 实现 通信 。 特 殊 的 发 言 者 或 者 客人 能 
够 通过 视频 专题 网 络 直播 来 进行 通信 。 参 会 者 能 够 通过 聊天 室 进行 通信 。 虽 然 ， 这 使 事件 参与 者 
能 够 在 同一 时 间 、 不 同 的 地 点 交换 信息 ， 但 是 它 没 有 像 Second Life 中 的 头像 可 视 经 验 那 样 丰富 
的 媒体 体验 。 


第 6 章 商务 智能 实施 : 整合 和 新 兴 趋 势 - 201 





与 参展 商 通过 
Skype 进 行 给 参展 商 发 一 封 


及 时 语音 通话 一 一 一 | 电子 邮件 












iTradeFair.com™ wl 
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放下 名 片 
挑选 名 片 一 认证 
一 一 演示 
新 闻 稿 一 一 | | I ee i 一 公司 描述 
挑选 小 册子 2 
和 营销 材料 一 幸运 抽奖 






| | 
看 产品 列表 ”观看 视频 语音 问候 








图 6-4 虚拟 展台 范例 


展 出 者 参加 贸易 洽谈 会 的 主要 原因 是 获得 新 的 指引 和 合同 。 在 虚拟 展示 中 ， 展 览 者 能 够 获 
得 实时 的 参加 者 的 指引 。 一 个 包含 每 个 注册 参展 者 信息 的 参展 者 报告 〈 与 传统 参展 者 名 单 相似 ) 
通过 事件 组 织 者 提供 给 所 有 的 展览 者 。 展 览 者 也 能 够 获得 访问 它们 虚拟 展台 的 参观 者 详细 的 贸 
易 报告 。 访 问 展台 的 参观 者 能 够 留 下 商务 名 片 。 所 有 留 下 数字 商务 名 片 的 参加 者 的 记录 是 可 以 
得 到 的 ， 这 一 报告 包括 所 有 参观 者 的 名 字 、 职 位 和 相关 的 合同 信息 ， 对 于 某 一 产品 和 服务 参观 者 
是 否 需 要 更 多 的 信息 、 公 司 的 一 般 信 息 、 工 作 机 会 。 一 个 全 面 的 “展台 脚印 报告 ”能 够 提供 给 
所 有 参观 过 展览 者 虚拟 展台 的 注册 的 参观 者 。 这 份 报告 提供 了 每 一 个 特殊 访问 者 对 什么 感 兴趣 
的 洞察 。 出 于 隐私 和 安全 的 考虑 ， 所 有 的 报告 控制 访问 。 但是， 这 样 的 报告 为 贸易 展览 的 组 织 者 
和 展示 者 提供 了 丰富 的 信息 ， 并 且 能 通过 商务 智能 技术 进行 分 析 。 

就 像 这 节 描 述 的 那样 ， 虚 拟 世 界 提 供 了 一 个 以 新 方法 提供 决策 支持 的 机 会 。 在 接 下 来 的 几 
Eh, 我们 将 看 见 决策 支持 能 力 更 广泛 的 使 用 。 男 外 ， 这 样 的 环境 (例如 iTradeFair. com 的 虚 
拟 贸 易 展览 ) 产生 大 量 关 于 用 户 活动 和 参与 者 在 线 活动 的 数据 。 这 些 大 量 的 数据 集 能 用 BI 技术 
进行 分 析 ， 这 样 可 以 更 好 地 理解 顾客 行为 ， 定 制 产品 /服务 或 者 技术 环境 。 


6. 9 节 复 习题 


1. 什么 是 虚拟 世界 ? 

2. 通过 虚拟 世界 提供 决策 支持 的 优点 和 缺点 。 

3. 现实 贸易 展览 中 的 哪些 活动 能 够 在 虚拟 世界 中 体验 ， 哪 些 活动 能 够 复制 ? 
4. 针对 用 户 在 特定 虚拟 世界 中 的 数据 你 会 实施 哪 种 类 型 的 数据 分 析 ? 


6.10 ”社交 网 络 和 Bl: 协同 决策 

开头 的 引 例 表明 了 博客 、Wiki 和 RSS 是 如 何 辅助 BI 的 。 描 述 的 系统 展示 了 使 用 社交 软件 和 
BI 的 潜在 好 处 。 事 实 上 ， 这 种 结合 是 非常 有 用 的 。 的 确 ， 作 为 主要 的 IT 咨询 公司 之 一 ，Gartner 
有 限 公司 预测 这 种 通过 输入 信息 到 企业 决策 中 的 整合 为 BI 活动 提供 了 机 会 。 它 们 将 这 样 的 结合 
称 为 协同 决策 。 
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6.10.1 协同 决策 的 崛起 


在 一 份 报告 中 ，Gartner 有 限 公司 的 研究 者 们 (Schlege et al. ，2009) 描述 : 协同 决策 ( Collab- 
orative Decision Making, CDM) 作为 一 种 新 的 决策 支持 的 类 型 ， 将 社交 软件 和 BI 相 结 合 。 它 能 够 
通过 直接 将 BI 系统 中 的 信息 与 使 用 社交 网 站 产生 的 信息 联系 起 来 ， 大 大 地 改善 决策 的 质量 。 

这 份 报告 的 重要 发 现 是 : 

。 CDM 是 一 类 为 非常 规 的 、 复 杂 的 、 需 要 人 类 反复 交互 提供 支持 的 决策 支持 系统 。 

。 涉及 价值 、 相 关 性 、 信 用 度 和 决策 内 容 的 特别 标记 能 够 不 断 地 丰富 决策 过 程 和 对 决策 有 

帮助 的 内 容 。 

。 将 BI 输入 到 决策 和 可 衡量 的 结果 中 ， 能 够 使 组 织 更 好 地 证 明 BI 的 商业 价值 。 

在 过 去 的 10 年 中 ， 尽 管 拥有 空前 的 信息 有 效 性 ， 但 公共 和 私有 部 门 仍然 遭受 了 多 个 不 完善 
的 决策 。 提 供 足 量 的 信息 并 希望 最 终 做 出 好 的 决定 是 不 够 的 。 大 量 的 社会 、 文 化 和 教育 因素 影响 
着 个 体 和 组 织 如 何 来 提高 他 们 的 决策 能 力 ， 这 些 因素 需要 在 分 析 中 进行 考虑 。CDM 能 够 通过 添 
加 缺失 的 因素 来 改正 低 效 的 决策 。 


6.10.2 虚拟 团队 决策 中 的 协同 


由 于 经 济 的 不 景气 造成 的 旅行 限制 迫使 许多 公司 寻找 工作 、 合 作 和 决策 的 新 方式 。Gartner 
有 限 公 司 的 研究 者 相信 信息 技术 市 场 将 通过 创造 一 个 使 用 社交 软件 培育 CDM 流程 的 系统 来 应 对 
在 虚拟 团队 中 的 合作 需要 。 由 顾客 驱动 的 社交 网 络 服务 倡导 的 社交 软件 技术 商务 应 用 ， 例 如 Fa- 
cebook 、Myspace， 运 行 良 好 。 组 织 已 经 使 用 协同 社交 软件 来 了 解 同 事 在 哪 儿 、 他 们 正在 做 什么 
META; 发 动 他 们 召集 紧急 会 议 来 解决 问题 。 设 计 协 同 环境 是 上 述 趋势 的 自然 进化 ， 这 种 环境 使 
决策 者 讨论 问题 ， 进 行头 脑 风 暴 选 择 ， 评 估 它 们 的 利弊 ， 对 一 系列 问题 达成 一 致 。 添 加 社交 软件 因 
素 〈 例 如 标签 、 推 荐 、 评 级 、 文 件 信息 ) 丰富 了 协同 环境 并 使 它 〈 和 源 于 它 的 结果 ) 更 加 有 用 。 

CDM 使 BI 系统 将 它 模 型 化 的 信息 和 在 合作 环境 中 做 出 的 决定 紧密 相关 。BI 系统 过 去 明显 地 
不 能 与 商务 过 程 相 联系 。 结 果 了 解 BI 的 商业 价值 通常 是 困难 的 ， 即 使 是 在 最 深刻 的 报告 和 分 析 
中 。 另 外 ， 决 策 被 认为 是 一 种 不 能 重复 的 非 结构 化 过 程 ， 所 以 缺乏 为 决策 者 提供 便利 的 工具 。 图 
6-5 表明 了 CDM 工具 是 如 何 支 持 决策 过 程 的 。 

















图 6-5 协同 决策 框架 
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CDM 是 如 何 工作 的 ”BI 与 社交 软件 结合 提供 了 一 种 展示 BI 价值 的 方法 ， 因 为 分 析 的 洞察 
力 和 措施 是 与 商业 决定 相 联系 的 ， 并 在 社会 环境 下 形成 的 框架 。 例 如 ， 在 投资 决策 过 程 中 ， 用 户 
能 够 评价 他 们 未 来 收益 、 花 费 者 或 者 利率 的 假设 ， 并 能 将 这 些 预 测 的 结果 与 衡量 销售 与 利润 的 
关键 绩效 指标 进行 对 比 。BI 平 台 能 够 用 合适 的 关键 绩效 指标 的 真实 、 临 时 结果 来 更 新 预测 模型 ， 
帮助 用 户 (关键 绩效 指标 的 参与 者 ) 超过 关键 的 临界 值 ， 要 求 重 新 考虑 决策 。 今天， 决策 中 的 
协同 更 加 具有 战略 性 ， 决 策 涉及 非常 规 的 活动 ， 例 如 头脑 风暴 发 现 、 改 革 、 创 新 和 引导 团队 、 学 
习 和 联系 ， 能 够 改变 商务 活动 。 手 工 决策 的 结果 会 轻易 地 丢失 ， 或 者 变 成 以 奇闻 的 形式 存在 的 公 
司 民间 传说 的 一 部 分 ， 没有 正规 的 决策 审计 、 评 估 、 闭 环 学 习 的 过 程 。 很 明显 ， 这 是 一 个 需要 信 
息 系统 来 为 手工 过 程 提供 便利 的 领域 ，CDM 能 够 成 为 一 个 理想 的 机 制 。 


6. 10 节 复 习题 


. 将 BI 和 社交 网 络 结合 的 逻辑 是 什么 ? 
. 为 什么 它 被 称 做 是 协同 决策 ? 

- 图 6-5 我 们 能 够 学 到 什么 ? 

. CDM 的 主要 好 处 是 什么 ? 

. 与 社交 软件 的 结合 的 特殊 贡献 是 什么 ? 
. 解释 CDM 是 如 何 工 作 的 ? 


6.11 RFID 和 新 的 BI 应 用 机 会 

2003 年 6 A, Wal-Mart 要 求 它 的 前 100 个 供应 商 在 将 运 至 得 克 萨 斯 地 区 的 达拉斯 商店 的 
托盘 和 箱子 上 全 部 安装 REID 标签 ， 在 这 个 命令 前 ，Wal-Mart 启动 了 一 项 50 年 的 技术 ， 这 项 
技术 以 许多 合适 的 区 域 为 基础 ， 被 有 限 地 使 用 (但 是 很 成 功 ) 。 自 从 此 项 声明 发 表 后 ，RFID 
行业 开始 兴起 ,美国 国防 部 不 久 就 发 布 了 自己 的 命令 : Target、Albertson 和 Best Buy 也 迅速 地 
跟 进 。 起 出 的 努力 集中 在 零售 供应 链 中 的 大 型 供应 商 (例如 Procter & Gamble、Gillette、 
Kraft) ， 但 是 现在 扩散 到 小 一 些 的 零售 供应 商 ，Wal-Mart 另外 200 个 大 型 供应 商 在 2006 年 1 月 
开始 运送 标签 产品 。 

RFID 技术 是 指使 用 无 线 射频 来 识别 物品 。 根 本 上 ，RFID 是 一 系列 自动 识别 技术 的 一 种 ， 
它 包括 无 处 不 在 的 条 形 码 和 磁 条 。 从 20 世纪 70 年 代 中 期 开始 ， 零 售 供应 链 (和 其 他 领域 ) 已 经 
使 用 条 形 码 作为 自动 识别 的 主要 形式 。RFID 的 潜在 优势 已 经 促使 许多 公司 (由 大 型 零售 商 如 
Wal-Mart, Target, Albertson 带领 ) 使 用 这 项 技术 作为 改善 它们 的 供应 链 ， 以 减少 成 本 和 增加 
销售 。 

RFID 是 如 何 工作 的 呢 ? 在 其 最 简单 的 形式 中 ， 一 个 RFID 系统 包括 一 个 标签 (粘贴 在 产品 
上 以 被 识别 ) 、 一 个 阅读 器 、 一 个 或 多 个 与 阅读 器 相连 的 天 线 和 一 个 计算 机 (控制 阅读 器 和 捕获 
数据 ) 。 现 在 ， 零 售 供应 链 主要 兴趣 是 使 用 被 动 RFID 标签 。 被 动 标签 从 电磁 区 域 接收 能 量 ， 电 
磁 区 域 是 由 阅读 器 生成 的 ， 并 在 需要 时 反 向 散射 信息 。 被 动 标 签 将 能 量 保留 在 阅读 器 的 电磁 区 
域内 。 

相反 ， 主 动 标签 装 有 电池 来 为 自己 提供 能 量 。 因 为 主动 标签 有 它们 自己 的 能 量 源 ， 所 以 它们 
不 需要 阅读 器 来 给 它们 提供 能 量 ; 它们 能 够 触发 数据 传递 过 程 。 积 极地 来 看 ， 主 动 标签 有 更 长 的 
阅读 范围 ， 更 好 的 准确 率 ， 更 复杂 的 可 重 写 信息 存储 ， 更 强 的 处 理 能 力 ( Moradpour Bhuptani, 
2005 ) 。 消 极地 来 看 ， 由 于 电池 ， 主 动 标签 拥有 有 限 的 生命 ， 比 被 动 的 标签 尺寸 更 大 ， 价 格 更 
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贵 。 现 在 ， 多 数 零售 商 使 用 被 动 标签 来 设计 和 操作 。 主 动 标签 经 常 在 防御 和 军事 系统 中 使 用 ， 然 
而 它们 也 会 出 现在 某 些 技术 中 ， 如 EZ Pass， 在 这 些 技术 中 标签 与 预付 账户 相连 接 ， 使 得 司机 能 
够 通过 行驶 过 一 个 阅读 器 而 不 是 停 下 来 在 一 个 交 费 岗 来 交 费 (U.S. Department of Commerce, 
2005). 

最 常用 RFID 技术 的 数据 表示 方法 是 电子 产品 代码 (Electronic Product Code, EPC), EPC 在 
许多 行业 被 看 做 是 通用 产品 代码 ( Universal Product Code, UPC) 的 下 一 代 (通常 由 条 形 码 表 
示 )。 与 UPC 相似 ，EPC 包含 一 系列 能 够 识别 产品 类 型 和 供应 链 上 的 生产 商 的 数字 。EPC 代码 也 
包括 额外 的 一 组 数字 来 识别 商品 。 

现在 多 数 的 RFID 标签 包含 96 位 数据 ， 形 式 是 系列 化 的 全 球 贸易 识别 数字 (Serialized Global 
Trade Identification Numbers ，SGTIN ) ， 用 来 识别 箱子 或 者 系列 货运 包装 箱 代 码 (Serialized Ship- 
ping Container Code，SSCC) 来 识别 托盘 (虽然 SGTIN 能 够 被 用 来 识别 托盘 ) 。 标 签 数据 标准 的 全 
部 指导 能 在 EPCglobal 的 网 站 上 找到 (epeglobalinc. org) 。EPCglobal 是 一 个 面向 订阅 者 的 行业 领 
导 者 的 组 织 ， 致 力 于 为 EPC 制定 全 球 标准 ， 用 来 支持 RFID 的 使 用 。 

图 6-6 描述 的 标签 数据 最 简化 的 形式 是 一 系列 二 进 制 位 。 这 套 二 进 制 位 能 够 被 转化 成 SGTIN 
十 进 制 。 如 图 6-6 所 示 ， 一 个 SGTIN 是 一 个 含有 一 系列 数字 的 UPC (UCC-14， 应 用 于 包装 箱 识 
别 )。 系 列 数字 是 当前 使 用 的 14 位 UPC 和 包含 在 一 个 RFID 标签 中 的 SGTIN 两 者 的 主要 区 别 。 应 
用 UPC， 公 司 能 够 识别 产品 系列 属于 哪 一 个 箱子 ， 但 是 它们 不 能 够 区 别 一 个 箱子 与 另外 一 个 箱 
子 。 使 用 SGTIN ， 每 个 箱子 是 被 唯一 识别 的 。 这 就 提供 了 箱子 级 别 的 可 视 化 而 不 是 产品 系列 识别 
的 可 视 化 。 
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图 6-6 RFID 标签 数据 范例 


RFID 产生 的 大 量 数据 的 应 用 之 一 是 在 供应 链 管 理 中 (Delen et al. ，2007) 。 多 数 的 供应 商 在 
产品 离开 他 们 工厂 的 时 候 在 产品 上 贴标签 。 一 个 产品 由 一 个 供应 商 流向 零售 分 销 中 心 (Distribu- 
tion Center，DC) ， 然 后 到 零售 货架 ， 它 可 能 经 过 许多 RFID 读 取 地 点 。 当 产品 经 过 这 些 地 点 时 ， 
阅读 器 捕捉 并 记录 箱子 的 标签 数据 。 当 产品 被 送 到 配送 中 心 时 ， 阅 读 端 (由 静态 的 阅读 器 和 传 
送 门户 两 边 的 天 线 产 生 ) 捕获 托盘 和 箱子 上 的 数据 。 作 为 一 个 展示 示例 ， 表 6-1 跟踪 了 实际 的 一 
箱 产品 (SGTIN: 0023800. 341813. 500000024) ， 从 它 到 达 配 送 中 心 到 它 在 压 碎 机 处 结束 它 的 生命 
的 整个 活动 。 这 个 产品 的 箱子 在 8 月 4 号 到 达 配 送 中 心 123, 在 8 月 9 号 放 在 传送 系统 上 ， 不久 
以 后 离开 。( 为 了 可 读 性 ， 仅 一 个 事件 被 显示 ) 。 它 在 离开 DC 之 后 的 12 个 小 时 到 达 了 987 商店 ， 
然后 立即 去 往 销售 大 厅 ， 在 5 小 时 之 后 由 销售 大 厅 返 回 ， 被 放 在 商店 辅助 仓库 直到 第 二 天 ， 它 又 
一 次 去 到 销售 大 厅 ，45 分 钟 后 返回 ， 然 后 来 到 压 碎 机 等 待 最终 的 处 理 。 产 品 多 是 沿 着 描述 的 线 
路 ， 但 是 在 离开 销售 大 厅 和 返回 两 个 不 同 的 场合 时 最 终 偏 离 了 轨道 。 

我 们 能 从 表 6-1 中 得 到 什么 数据 (RFID 数据 的 一 个 简单 例子 )? 如 果 我 们 仔细 地 检查 ， 数 据 
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提供 了 很 多 可 以 深刻 理解 的 地 方 。 





表 6-1 RFID 数据 
位 置 EPC 日 期 /时 间 读者 
DC 123 0023800. 341813. 500000024 08-04-05 23; 15 Inbound 
DC 123 0023800. 341813. 500000024 08-09-05 7; 54 Conveyor 
DC 123 0023800. 341813. 500000024 08-09-05 8; 23 Outbound 
ST 987 0023800. 341813. 500000024 08-09-05 20; 31 Inbound 
ST 987 0023800. 341813. 500000024 08-09-05 20: 54 Sales floor 
ST 987 0023800. 341813. 500000024 08-10-05 1; 10 Sales floor 
ST 987 0023800. 341813. 500000024 08-10-05 1; 12 Backroom 
ST 987 0023800. 341813. 500000024 08-11-05 15; 01 Sales floor 
ST 987 0023800. 341813. 500000024 08-11-05 15; 47 Sales floor 
ST 987 0023800. 341813. 500000024 08-11-05 15; 49 Box crusher 


首先 ， 知 道 移 动 的 次 数 和 时 间 对 于 确保 一 个 产品 的 新 鲜 度 ， 跟 踪 回访 电话 ， 并 以 一 种 及 时 的 
方式 使 产品 到 达 商 店 〈 特 别 是 对 于 时 间 人 敏感 的 产品 ) 非常 重要 的 。 例 如 ， 考 虑 公司 产品 促销 面 
临 的 情形 。 广告 (国内 、 国 外) 通常 是 为 了 进行 产品 促销 而 发 布 的 ， 产 品 的 命运 是 在 促销 开始 
后 的 前 几 天 中 决定 的 。 如 果 一 个 产品 不 是 以 一 个 及 时 的 方式 放 在 货架 上 ， 那么 销售 会 受到 损失 。 
Gillette 已 经 使 用 RFID 来 决定 商店 是 否 在 它们 的 货架 上 存储 有 某 项 促销 活动 的 某 一 商品 。 我 们 发 
现在 一 个 促销 开始 之 前 ， 使 用 RFID 将 产品 从 商店 辅助 仓库 移动 到 货架 上 的 这 些 商 店 的 销售 额 要 
比 那些 没有 及 时 移动 产品 的 商店 的 销售 额 高 48% (Evans, 2005), RFID 提供 了 所 需要 的 数据 和 
调查 。 

第 二 ,数据 提供 了 对 于 将 货物 从 商店 辅助 仓库 运 至 销售 大 厅 这 一 过 程 的 观察 。 在 表 6-1 提供 
的 例子 中 ， 我 们 可 以 发 现 产 品 移动 到 销售 大 厅 2 次 。 可 能 第 一 次 它 是 被 带 出 来 的 ， 它 与 货架 不 相 
符 并 被 退回 到 商店 辅助 仓库 。 第 二 次 它 出 来 ， 它 与 货架 相符 。 这 一 “不 必要 的 箱子 循环 ”产生 
了 几 个 问题 。 将 产品 移 到 销售 大 厅 并 发 生 不 必要 的 退回 浪费 了 宝贵 的 人 力 资源 ， 一 个 产品 被 处 
理 的 次 数 越 多 ， 它 被 损坏 的 概率 就 越 高。 为 什么 产品 被 2 次 送 至 销售 大 厅 ? 如 果 产 品 直到 8 月 11 
号 《产品 上 架 的 那 一 天 ) 才 被 需要 ， 那么 为 什么 它 在 8 月 10 号 被 送 到 存储 室 ? 这 就 反映 出 了 预 
测 和 更 新 系统 的 问题 。 或 者 可 能 一 个 员工 在 产品 不 需要 的 时 候 下 达 了 一 个 手工 订单 。 如 果 是 
这 样 ， 手 工 订单 为 什么 会 出 现 ? 它 可 能 是 产品 在 商店 辅助 仓库 但 是 没有 被 发 现 或 者 没有 被 找 
到 。 员 工 不 是 去 花 时 间 找 到 它 ， 而 是 手工 发 出 了 需要 产品 的 订单 。 当 产品 在 传送 时 ， 另 一 个 
员工 在 商店 辅助 仓库 找到 了 产品 并 存放 在 货架 上 。 当 手工 订单 的 产品 到 达 时 它 可 能 不 适合 货 
架 ，( 对 于 手工 订单 的 产品 ) 一 个 不 需要 的 运送 过 程 发 生 了 。RFID 是 如 何 帮助 解决 这 种 情况 
的 ? 当 一 个 员工 试图 下 手工 订单 时 ， 系 统 能 够 检查 现在 是 否 有 一 个 箱子 存在 商店 辅助 仓库 中 
(由 回收 室 中 的 阅读 器 决定 )。 如 果 箱 子 存 在 ， 就 系统 能 够 通过 使 用 一 个 手持 的 RFID 阅读 器 来 
帮助 员工 找到 箱子 。 l 

第 三 ， 它 提供 了 产品 在 供应 链 中 移动 的 精确 时 间 ， 以 及 一 个 箱子 接 一 个 箱子 的 每 个 关键 阅 
读 点 的 相隔 时 间 。 这 种 调查 在 以 前 是 不 可 能 的 。 交 货 时 间 通 常 是 基于 大 量 的 产品 系列 在 系统 中 
的 移动 来 估计 的 。 存 储 水 平 的 可 视 性 在 RFID 之 前 是 不 可 能 的 。 这 种 可 视 性 要 求 制定 合适 的 措施 
来 决定 配送 中 心 的 行为 。Delen et al. (2007) 提出 几 个 性 能 措施 来 捕获 这 种 可 视 性 。 

公司 使 用 RFID 能 够 提高 效率 ， 并 通过 增加 的 流程 变化 来 提高 各 种 已 存在 过 程 的 有 效 性 。 例 
如 ， 早 期 证 据 表 明 REID 能 够 减少 仓库 接收 产品 的 时 间 (Katz, 2006), RFID 标签 产品 能 够 在 一 
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个 门户 自动 地 读 取 而 不 是 使 用 条 形 码 一 个 一 个 地 浏览 每 个 产品 箱 。Gillette 发 表 报 告 说 ,使 用 
RFID 和 源头 标签 战略 能 够 使 配送 中 心 的 托盘 接收 时 间 降 低 5 秒 到 20 Hb (Katz，2006 ) 。 接 收 货 
物 的 流程 没有 明显 的 改变 (也 就 是 说 ，forklilts 像 从 前 一 样 印 货 ) 。 唯 一 的 改变 是 减少 了 人 工 浏览 
货物 的 需要 。 这 样 流程 效率 变 得 更 高 ， 流 程 也 变 得 更 加 的 有 效 。 例 如 ，Wal- Mart 发 现 通过 使 用 
RFID 数据 ， 产 生 更 好 的 货物 补给 清单 ， 能 够 使 缺 货 率 降 低 26% (Hardgrave et al. ，2006) 。 货 物 
补给 过 程 没有 改变 但 是 通过 使 用 RFID 有 所 改善 。Wal- Mart 也 减少 了 10% 不 必要 的 手工 订单 ， 这 
就 使 订货 和 预测 系统 更 加 有 效 (Sullivan, 2005), RFID 也 能 够 用 在 收 货 时 以 减少 错误 的 数量 ， 
这 就 改善 了 库存 准确 率 ， 最 终 得 到 了 更 好 的 预测 和 补给 。 

RFID 数据 还 用 在 许多 其 他 相关 的 应 用 中 。 例 如 ， 易 腐 商品 为 供应 链 管理 带 来 了 巨大 的 挑战 ， 
这 是 由 于 存在 很 多 拥有 不 同 易 损 性 质 的 货物 ， 在 供应 链 中 有 不 同 的 流通 要 求 ， 大 量 的 货物 需要 
保管 很 长 的 距离 。 虽 然 食物 是 易 腐 品 组 合 中 出 现 频率 最 高 的 货物 ， 但 其 他 产品 包括 新 摘 的 鲜花 、 
药品 、 化 妆 品 、 汽 车 零件 同样 需要 很 严格 的 环境 控制 来 保持 它们 的 品质 。 由 于 需要 处 理 的 货物 的 
数量 非常 大 ， 所 以 可 能 出 现 的 问题 也 在 增加 (Sahin et al. ，2007 ) 。 例 如 ， 即 使 是 非常 小 的 腐败 
率 的 消除 ， 也 能 够 为 供应 链 带 来 巨大 的 改善 。 所 以 ， 易 腐 品 供应 链 管理 优化 是 在 市 场 竞争 中 最 为 
重要 的 。 

今天 的 易 挥 发 易 腐 坏 产品 供应 链 的 成 功 取决 于 产品 可 视 化 的 水 平和 及 时 性 。 可 视 化 能 够 为 
“我 的 货物 在 哪 ?” 和 “我 的 货物 状况 是 什么 ?” 等 这 些 问题 提供 答案 。 许 多 公司 已 经 开始 应 用 
RFID 来 管理 易 腐 产品 。 考 虑 下 面 的 例子 : 

e Samworth Brothers Distribution (英国 ; 三 明治 、 糕 点 等 ) 已 经 在 它 的 卡车 里 实施 了 实时 温 
度 监 测 (Swedberg，2006a)。 
Fresh Express 使 用 RFID 来 查看 货物 的 流通 情况 和 过 期 日 期 (Intel, 2007), 
Starbucks 使 用 温度 跟踪 流向 零售 网 点 的 货物 (Swedberg，2006b)。 
Sysco 使 用 RFID 在 不 开门 的 情况 检查 装 货物 状况 (Collins, 2005) ) 。 
一 个 区 域 连锁 餐饮 (700 家 餐厅) 使 用 基于 RFID 的 温度 监测 来 决定 牛肉 饼 、 鸡 蛋 和 洋 瓯 
等 状况 (Banker，2005 ) 。 

e TNT 使 用 RFID 监测 从 新 加 坡 到 曼谷 的 货物 温度 情况 (Bacheldor, 2006) 。 

本 章 结尾 的 应 用 案例 介绍 了 一 个 有 趣 的 新 兴 的 应 用 ， 这 一 应 用 包括 了 BI 和 RFID 的 创新 使 
Ho RFID 技术 能 够 产生 大 量 的 数据 ， 通 过 分 析 这 些 数据 能 够 对 公司 的 情况 有 更 深入 的 了 解 ， 这 
是 每 种 BI 和 决策 支持 存在 的 目的 。 下 面部 分 说 明了 另外 一 种 新 兴 的 BI 机会， 是 从 大 量 收集 的 信 
息 中 产生 的 。 


6. 11 节 复 习题 


1. 什么 是 RFID? 

2. RFID 读 取 或 记录 哪 种 类 型 的 数据 ? 

3. 通过 在 配送 中 心 使 用 RFID 一 个 公司 能 够 得 到 什么 ? 

4. 上 网 收集 一 些 RFID 在 健康 护理 、 娱 乐 和 运动 方面 的 应 用 ? 


6.12 ”现实 挖掘 


就 像 RFID 产生 大 量 的 数据 通过 商务 智能 进行 更 深 的 分 析 来 帮助 决策 一 样 ， 另 一 个 大 量 的 数 
据 源 正在 兴起 ， 技 术 的 发 展 使 数据 变 得 有 意义 。 这 种 数据 挖 据 有 个 新 名 字 一 一 现实 挖 据 。Eagle 
和 Pentland (2006) 最 早 使 用 这 个 术语 。MIT 的 Alex (Sandy) Pentland 和 哥伦比亚 大 学 的 Tony 
Jebara 拥有 一 个 叫做 感知 网 络 (Sense Networks) 的 公司 (sensenetworks. com) , 该 公司 致力 于 
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开发 现实 挖掘 应 用 。 本 节 采 用 和 包括 的 材料 得 到 了 感知 网 络 公 司 许可 。 

许多 由 顾客 和 商务 人 士 使 用 的 设备 都 在 不 断 地 发 出 有 关 它 们 位 置 的 信息 。 归 功 于 连接 网 络 
的 定位 技术 ， 如 GPS. Wi-Fi 和 移动 电话 塔 ， 小 汽车 、 公 交 汽 车 、 出 租车 、 移 动手 机 、 照 相机 和 
个 人 导航 设备 都 在 传送 它们 的 位 置 。 许 多 用 户 和 业务 人 员 使 用 可 知 位 置 的 设备 来 找到 附近 的 服 
务 ， 找 到 朋友 和 家 人 ， 导 航 、 跟 踪 财 产 和 宠物 、 调 度 、 参 加 体育 活动 、 游 戏 和 喜好 。 定 位 服务 的 
oo 当然 ， 它 是 分 散 的 并 且 单 个 是 没有 
使 用 价值 的 。 现 实 挖掘 是 在 这 样 一 个 思想 基础 上 实施 的 ， 这 一 思想 是 : 数据 集 能 够 提供 实时 的 聚 
集 大 量 人 群 活动 趋势 的 洞察 。 

通过 分 析 和 学 习 大 规模 行为 方式 ， 能 够 区 分 特定 内 容 中 的 行为 的 分 类 ， 叫 做 “部 落 ” (Eagle 
and Pentland ，2006 ) Macrosense 是 由 SenseNetworks 开发 的 应 用 平台 ， 该 平台 使 用 由 各 种 移动 设 
备 产生 的 数据 ， 经 过 空间 和 基于 时 间 的 清洗 之 后 ， 对 这 些 大 量 数 据 源 使 用 合适 的 聚 类 算法 来 对 
输入 的 信息 进行 分 类 ， 因 为 这 些 数据 属于 不 同类 型 的 顾客 、 客 户 等 。 这 种 方法 使 企业 能 够 更 好 地 
理解 它 的 客户 的 行为 方式 并 且 能 够 对 于 促销 、 定 价 等 做 出 更 好 的 决策 。 

感知 网 络 公司 现在 采取 这 些 技术 来 帮助 用 户 找到 有 相 
同 兴趣 的 人 们 。 这 一 应 用 被 叫做 城市 感官 (Citysense) 图 
6-7 是 旧金山 某 一 区 域 的 地 图 。 在 sensenetworks. com/ 
citysense. php 网 站 能 够 更 好 的 看 见 ， 但 是 即使 是 黑白 相 ， 
间 的 图 形 也 能 表明 知道 人 们 在 某 一 特定 时 间 将 去 哪里 是 有 中 金山 有 前 交通 极其 级 慢 ， 行 驶 速度 
可 能 的 。 每 一 个 点 代表 人 们 的 出 现 ， 表 示人 们 是 如 何 分 组 o 
和 在 城市 中 活动 的 方式 。 感 知 网 络 的 核心 分 析 平 台 Mac- 
rosense 也 能 够 分 析 大 量 的 在 Citysense 中 展示 的 信息 ， 来 对 
用 户 进行 分 组 和 识别 部 落 。Macrosense 能 够 通过 提取 某 一 
地 点 和 时 间 的 部 落 分 布 的 样本 来 识别 这 些 部 落 在 哪 ， 这 就 
使 得 当 一 个 用 户 在 一 个 地 点 和 时 间 时 所 处 的 位 置 来 推断 这 
意味 着 什么 是 可 能 的 。 例 如 ， 揪 滚 俱乐部 和 街舞 俱乐部 每 
一 个 都 拥有 一 个 截然 不 同 的 部 落 分 布 。 当 一 个 用 户 在 夜间 
外 出 时 ，Macrosense 从 人 们 在 这 些 地 方 所 花费 的 时 间 中 了 
解 到 他 们 喜欢 的 部 落 分 布 。 感 知 网 络 公司 说 ， 在 Citysense 显示 的 是 从 你 中 前 所 处 * 
未 来 的 版 本 中 会 包括 部 落 ， 当 用 户 访问 其 他 城市 时 ， 他 们 ENEN 
将 能 够 看 到 基于 这 种 分 布 的 推荐 地 点 和 这 些 地 点 活动 的 全 GD 
面 信息 。 

去 摇滚 俱乐部 的 用 户 会 看 到 播 滚 俱乐部 的 地 点 ， 经 常 
去 街舞 俱乐部 的 用 户 将 会 看 到 街舞 俱乐部 的 地 点 ， 两 种 都 
去 的 顾客 能 够 看 到 所 有 的 信息 。 这 就 回答 了 “ 像 我 一 样 的 
人 现在 都 在 哪 ?” 这 样 的 问题 ， 即 使 是 在 他 们 之 前 从 没有 
去 过 的 城市 。 通 过 使 用 部 落 来 模仿 真实 世界 ， 能 够 为 每 个 顾客 提供 个 性 化 的 服务 而 不 需要 收集 
个 人 身份 信息 。 

通过 使 用 减少 地 点 数据 维度 的 算法 ， 现 实 挖掘 能 够 通过 不 同 地 点 之 间 的 活动 来 区 分 地 点 。 
从 大 量 的 高 维度 的 地 点 信息 中 ， 这 些 算法 能 够 显示 趋势 、 含 义 和 关 系 最 终 产 生 人 类 能 够 理解 的 
表达 方式 。 使 用 这 样 的 信息 可 以 自动 地 进行 智能 预测 和 找到 重要 的 不 同人 和 地 点 之 间 的 匹配 和 
相似 性 。Loecher et al. (2009) 提供 了 它们 算法 的 相关 细节 信息 。 基 本 上 使 用 通过 移动 电话 数据 
记录 的 活动 信息 来 研究 现实 世界 地 点 之 间 的 行为 联系 。 这 也 需要 考虑 时 间 ， 因 为 一 组 人 可 能 在 





图 6-7 旧金山 城市 感官 范例 
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早晨 去 一 个 地 方 上 班 ， 而 另 一 个 不 同 组 的 人 可 能 在 晚上 经 常 去 同一 个 地 点 是 由 于 附近 的 俱乐部 。 
由 于 数字 暂时 的 敏感 性 和 人 们 经 常 去 一 个 地 点 的 类 型 (这 些 比 在 一 个 网 络 中 的 静态 网 页 的 数据 
更 加 的 动态 ) ， 描 述 现实 世界 的 原始 数据 需要 交错 的 维度 。 

通过 由 感知 网 络 提供 的 资料 ， 它 给 在 一 个 城市 中 的 每 个 地 点 赋予 了 487 500 个 维度 。 维 度 是 
建立 在 人 们 某 一 段 时 间 进 出 某 一 场所 的 活动 ， 和 人 们 在 这 段 时 间 前 后 访问 的 地 点 的 基础 上 的 。 
它们 的 “最 低 数量 杏 入 ”算法 将 地 点 的 维 数 和 暂时 的 数据 降 到 了 二 维 ， 这 里 面 保留 超过 90% 的 
信息 。 这 就 使 数据 拥有 了 可 视 化 ， 这 允许 人 们 更 好 地 理解 关键 维度 ， 提 取 一 个 城市 中 人 们 之 间 的 
关键 关系 ， 例 如 购物 的 人 们 、 上 下 班 的 人 们 或 者 社交 的 人 们 。 另 外 ， 它 们 也 使 用 综合 了 人 口 信 
息 、 天 气 和 其 他 变量 的 历史 数据 。 一 旦 对 于 一 个 城市 中 的 空间 行为 的 理解 是 有 效 的 ， 那么 公司 就 
能 够 利用 持续 更 新 的 分 类 来 更 好 地 理解 来 自分 散 地 点 的 顾客 ， 发 现 大 量 顾客 行为 的 趋势 ， 预 测 
服务 和 地 点 的 需求 。 

使 用 这 些 技术 一 个 关键 的 担忧 是 隐私 的 泄露 。 如 果 人 能 够 跟踪 手机 的 移动 ， 那 么 顾客 的 隐 
私 将 是 一 个 大 的 问题 。 但 是 ， 感 知 网 络 公 司 声 称 它 仅 需要 收集 大 量 流动 的 信息 而 不 是 个 体能 够 
识别 身份 的 信息 来 将 某 一 个 人 归 人 某 一 类 。 

访问 感知 网 络 公司 的 网 站 (sensenetworks. com) 来 查询 这 一 领域 的 最 新 发 展 。 技 术 正在 飞 
速 地 发 展 。Baker (2009) FRE (Economist) (2009) 中 的 一 个 故事 强调 了 现实 挖掘 应 用 在 商 
务 管理 中 的 一 些 可 能 的 应 用 。 例 如 一 个 叫做 Path Intelligence 的 公司 pathintelligence. com) 
已 经 开发 了 一 个 叫做 FootPath 的 系统 ， 它 能 够 查 明 人 们 在 一 个 城市 中 是 如 何 活动 的 ， 甚 至 是 在 
一 个 商店 中 。 所 有 的 这 些 都 是 通过 自动 跟踪 活动 而 不 使 用 任何 摄像 记录 移动 的 情况 下 实现 的 。 
这 样 的 分 析 能 够 帮助 产品 或 者 公共 交通 站 最 好 地 布局 。 通 过 移动 电话 捕获 和 无 线 网 络 热点 接 
入 自动 收集 数据 ， 为 非 代 人 式 市 场 研究 数据 的 收集 以 及 大 量 数据 集 微观 分 析 提 供 了 一 种 新 的 
有 趣 的 维度 。 


6. 12 节 复 习题 
1. 定义 现实 挖掘 。 
2. 在 现实 挖 所 中 使 用 哪 种 类 型 的 数据 ? 
3. 简明 的 描述 数据 是 如 何 被 用 来 产生 用 户 简 介 的 ? 
4. 如 果 你 能 够 获得 移动 手机 地 点 数据 ， 你 还 能 够 想到 哪些 其 他 的 应 用 ? 对 能 够 提供 地 点 的 服务 进行 
调查 。 
关键 术语 
Application Service Provider (ASP， 应 用 服务 提供 商 ) robot 机 器 人 
knowledge base 知识 库 social network analysis software 社交 网 络 分 析 软 件 
knowledge management 知识 管理 virtual team 虚拟 团队 
problem solving 问题 解决 data integrity 数据 整合 
utility computing 效用 计算 multidimensionality 多 维 性 
reality mining 现实 挖掘 virtual worlds 虚拟 世界 
brainstorming 头脑 风暴 functional integration 功能 整合 
middleware 中 间 件 physical integration 物理 整合 
Radio Frequency IDentification (RFID， 无 线 射 频 识 别 ) Software as a Service (SaaS， 软 件 即 服 务 ) 
virtual community 虚拟 社区 interactivity 交互 性 
Collaborative Decision Making (CDM， 协 同 决策 ) privacy 隐私 


mobile social networking 移动 社交 网 络 


第 6 章 商务 智能 实施 : 整合 和 新 兴 趋 势 - 209 


讨论 题 

1. 一 些 人 认为 面向 需求 的 BI 将 会 成 为 BI 的 主要 模型 ， 请 讨论 该 观点 。 

2. 讨论 虚拟 团队 中 的 协同 决策 的 利弊 。 

3. 区 分 在 一 项 针对 市 场 营 销 决 策 支持 的 BHI 项 目 实施 中 的 实体 和 功能 整合 。 

4. 讨论 在 BI MAL PRA REM OME. BREN BI 是 否 会 取代 人 类 ? 

5. 讨论 为 什么 将 数据 库 和 后 端 系统 与 BI 连接 是 如 此 重要 。 

6. 在 供应 链 管理 中 使 用 RFID 的 潜在 好 处 和 挑战 。 

7. 如 果 RFID 数据 是 大 量 的 但 仅 包括 基本 的 跟踪 信息 ， 那 么 你 如 何 从 这 样 的 数据 中 挑选 出 有 用 的 信息 ?” 你 
可 去 阅读 Delen et al. (2007). 

8. 使 用 虚拟 世界 来 进行 决策 支持 的 好 处 与 问题 是 什么 ? 

9. 如 果 你 有 机 会 参加 一 场 虚拟 招聘 会 ， 哪 些 因素 会 激发 和 禁止 你 参加 ? 

10. 基于 位 置 追踪 的 简介 (现实 挖掘 ) 是 非常 强大 的 但 是 同样 存在 隐私 威胁 ,请 评论 。 

11. Web 2.0 的 主要 特征 是 什么 ? Web 2.0 应 用 有 哪些 优势 ? 

12. 讨论 利用 虚拟 社区 在 网 络 上 进行 商务 活动 。 

13. 维基 百科 (Wiki) 是 怎样 用 来 为 知识 管理 提供 方便 的 ? 

14. 讨论 移动 设备 和 社交 网 络 之 间 的 关系 ? 


练习 


网 络 练习 

1. BI 应 用 支持 的 实时 决策 被 认为 是 主要 的 好 处 。 上 网 查阅 相关 信息 来 识别 例子 和 好 处 。 访 问 Teradata 大 学 
网 络 和 information-management. com 网 站 。 

2. 查找 一 些 关 于 BI 实施 的 博客 ， 并 确定 它们 正在 讨论 的 一 些 问题 。 

3. 访问 3 个 BI 供应 商 ( 例 如，Cognus IBM 公司 、Business obgects, SAP 公司 、Oracle) 找到 它们 在 面向 需 
求 的 BI 中 的 活动 。 写 一 份 报告 

4. 进入 Oracle. com。 查 找 它 为 BI 提供 了 哪些 中 间 件 ， 检 查 它 的 融合 项 目的 状况 

5. 进入 RFID 期 刊 网 站 (rfidjournal. com) 。 列 出 至 少 2 个 与 供应 链 管 理 有 关 的 应 用 ， 和 2 个 在 下 面 领 域 的 
应 用 : 健康 护理 、 教 育 、 娱 乐 和 法 律 实施 。 

6. 进入 blog. itradefair. com。 虚 拟 贸易 展销 会 的 一 些 有 趣 的 应 用 是 什么 ? 

7. 进入 youtube. com， 搜 索 关于 云 计算 的 视频 。 观 看 至 少 2 个 ， 总 结 你 的 发 现 。 

8. 进入 sensenetworks. com 查看 Citysense 的 应 用 和 关于 它 的 媒体 报告 。 写 一 份 关于 你 所 学 到 的 东西 的 

报告 。 

9. 进入 社交 网 络 服务 的 网 站 (myspace. com-facebook. com ) 。 建 立 一 个 网 页 ， 添 加 一 个 聊天 室 ， 使 用 免 

费 工 具 添 加 一 个 信息 板 。 描 写 其 他 可 有 的 能 力 。 结 交 至 少 5 个 新 朋友 。 

10. 进入 pandora. com。 找 到 你 如 何 才 能 创作 和 与 朋友 分 享 音乐 。 为 什么 它 是 一 个 Web 2. 0 应 用 。 

11. 进入 smartmobs. com。 访 问 博客 链接 。 找 到 3 个 与 Web 2. 0 相关 的 博客 ， 并 总 结 它们 的 主要 特征 。 

12. 进入 mashable. com， 查 看 最 新 的 关于 社交 网 络 和 网 络 战略 的 信息 。 写 一 份 报告 。 

13. 进入 businessweek. com/print/magazine/content/06_18/b3982001. htm? chang = gl 阅读 “My Virtual 
Life”， 与 幻灯 片 中 的 7 个 居民 见面 。 准 备 一 个 表格 来 表述 它 获取 利润 的 方式 ， 所 需 的 技能 和 能 在 Sec- 
ond Life 中 完成 它 的 原因 。 

14. 识别 2 个 虚拟 世界 (除了 Second Life 之 外 )。 

15. 进入 secondlife. com， 查 找 一 个 与 BI 和 决策 支持 相关 的 内 容 。 写 一 份 关 于 它们 提供 什么 的 报告 。 

16. 进入 yedda. com， 研 究 它 的 知识 分 享 的 方法 。 
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小 组 作业 


1. 


通过 拜访 供应 商 (Cognus, IBM, Oracle) 调查 基于 需求 BI 的 状况 ,使 用 搜索 引擎 (bing, google, ya- 
hoo), ， 访 问 论 坛 (如 ，TSN 、aspnews. com, utillitycomputing. ccom/forum/)。 识 别 主要 的 担心 和 成 就 ， 
准备 一 份 报告 和 班级 展示 。 


. 准备 一 份 关 于 社交 软件 能 够 支持 BI 应 用 的 示例 。 提 供 参考 文献 和 公司 的 名 字 。 


3. 商品 层次 的 RFID 标签 对 于 零售 商店 和 用 户 都 将 是 非常 有 用 的 。 商 店 已 经 使 用 RFID 来 更 精确 的 跟踪 库 


10. 


存 。 顾 客 能 够 使 用 RFID 来 确定 商品 的 位 置 甚至 使 用 一 个 商店 范围 内 的 GPS 来 找到 商品 。 然 而 ，RFID 有 
一 些 潜 在 的 隐私 问题 。 分 成 2 个 小 组 进行 辩论 ， 一 个 小 组 支持 使 用 RFID， 另 外 一 个 小 组 反对 使 用 RFID. 


. 上 网 搜索 关于 “虚拟 贸易 展览 "。 分 成 2 个 小 组 进行 辩论 ， 一 组 支持 在 商务 应 用 中 使 用 虚拟 世界 ， 男 一 


组 反对 。 


. 基于 跟踪 定位 的 分 组 为 个 性 化 服务 提供 了 可 能 但 是 也 为 隐私 带 来 了 挑战 。 将 班级 分 成 2 个 部 分 来 辩论 是 


否 应 该 使 用 诸如 Citysense 这 样 的 应 用 。 


. 每 组 进入 以 商务 活动 为 特征 的 商务 网 站 (例如 LinkedIn, Xing, Facebook, Second Life) 。 每 个 小 组 接 下 


来 将 在 hellotxt. com 中 注册 找到 与 现在 的 商务 活动 相关 的 网 站 正在 进行 什么 活动 。 写 一 份 报告 并 做 一 次 
班级 展示 。 


. 使 用 HelloTXT， 登 录 网 站 将 你 的 文本 信息 输入 到 网 站 中 。 然 后 ， 选 择 你 想 使 用 你 的 新 身份 信息 更 新 的 网 


站 ，HelloTXT 会 做 余下 的 工作 ， 将 你 的 新 的 身份 信息 传 到 你 的 各 种 各 样 的 主页 中 。 这 是 一 种 将 你 的 各 种 
各 样 的 简介 信息 以 一 种 尽 可 能 实时 更 新 的 ， 非 常 集中 化 的 保存 方式 ， 通 过 回答 “你 从 事 什 么 工作 ”这 样 
的 问题 来 更 新 你 的 ILinkedin 身份 。 


. 作为 一 个 小 组 进入 secondlife. com 并 新 建 一 个 头像 。 每 一 个 组 成 员 要 访问 一 个 特定 的 商业 区 域 (虚拟 房 


地 产 、 教 育 活动 、 外 交 岛 ) ， 确 定 头 像 与 其 他 人 的 头像 正在 交流 。 写 一 份 报告 。 


. 进入 facebook. com 和 myspace. com 找 出 10 个 著名 的 公司 是 如 何 利用 网 站 来 进行 商业 活动 。 同 样 比较 


2 个 网 站 的 功能 性 。 

多 家 医院 正在 引进 或 者 考虑 引进 一 个 智能 床位 帮助 系统 ， 这 一 系统 能 够 为 医生 和 员工 提供 一 个 病人 的 
药物 记录 数据 库 用 来 诊断 和 预测 。 这 个 系统 从 病人 药物 记录 中 提供 任何 需要 的 信息 ， 在 症状 的 基础 上 
进行 诊断 ， 描 述 药品 和 其 他 治疗 。 这 个 系统 包括 一 个 专家 系统 和 一 个 DSS。 这 一 系统 是 被 用 来 减少 一 
些 人 为 错误 和 改善 病人 护理 的 。 你 是 一 个 医院 的 管理 人 员 并 且 对 于 系统 为 病人 提供 的 好 处 非常 的 兴奋 。 
然而 ， 当 你 召开 一 个 员工 会 议 时 ， 被 提问 到 以 下 的 问题 : 如 果 系 统 不 能 正常 工作 怎么 办 ? 当 程序 或 规 
则 中 存在 没有 被 察觉 的 错误 时 怎么 办 ? 系统 一 旦 实施 会 担负 起 所 有 病人 护理 的 责任 因为 医生 依赖 它 。 
数据 的 丢失 或 一 个 程序 的 错误 可 能 会 导致 灾害 。 例 如 ， 假 如 在 数据 库 程序 中 存在 错误 ， 导 致 一 个 关键 
的 信息 从 病人 的 记录 中 消失 了 。 依 赖 系统 的 医生 会 在 信息 不 完全 的 基础 上 开 出 药方 。 错 误 的 结果 会 有 
生命 的 危险 。 另 外 一 个 可 能 性 就 是 在 知识 数据 库 中 的 一 些 规则 可 能 对 于 所 有 的 患者 来 说 并 不 是 准确 的 。 
你 是 实施 这 样 一 个 系统 吗 ? 为 什么 会 和 为 什么 不 会 ? 


. 阅读 Chae et al. 〈2005) ， 总 结 文章 中 描述 的 所 有 道德 问题 并 找 出 在 每 个 领域 中 的 例子 。 
. 将 全 班 分 成 两 个 部 分 : 一 部 分 相信 BI 将 会 取代 商务 分 析 专 家 ， 另 一 部 分 反对 这 一 观点 ， 进 行 讨论 。 
. 识别 有 关 管 理 决策 的 关键 问题 。 上 网 查阅 资料 ， 加 入 聊天 室 ， 阅 读 网 上 的 文章 。 根 据 你 的 发 现 准备 一 


份 报告 。 


. 调查 美国 律师 协会 的 技术 资源 中 心 (abanet org/tech/Itrc/techethics. html) 和 nolo. com。 在 这 里 强 


调 的 主要 的 法 律 和 社会 担心 与 优势 各 是 什么 ? 它们 是 被 如 何 处 理 的 ? 


. 访问 一 些 关 于 健康 护理 的 网 站 (例如 WebMD. com, who. int) ， 找 到 与 MSS 和 隐私 相关 的 问题 。 写 一 


份 关 于 这 些 网 站 是 如 何 改善 健康 护理 的 报告 。 


. 访问 computerworld. com 并 找到 5 个 与 BI 和 MSS 相关 的 法 律 问题 。 
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本 章 结 尾 应 用 案例 

Coca-Cola 基于 RFID 的 自动 售 货 机 作为 商务 智能 的 新 类 型 

总 部 设 在 佐治 亚 州 亚特兰大 的 Coca-Cola 饮料 公司 ， 想 要 寻找 一 种 增加 销售 的 方法 并 找到 一 种 更 低 成 本 
的 测试 新 产品 的 方法 。 在 2009 年 的 夏天 ， 公 司 在 加 利 福 尼 亚 州 、 佐 治 亚 州 、 犹 他 州 选中 的 快餐 厅 中 安装 了 
新 的 装 有 RFID 的 自动 售 货 机 ， 并 计划 在 全 国 推广 自动 售 货 机 。 新 的 自动 售 货 机 叫做 Freestyle， 这 种 柜台 装 
有 30 种 口味 的 饮料 ， 使 顾客 能 够 制造 包括 苏打 水 、 果 汁 、 茶 等 在 内 的 100 种 不 同 的 饮料 。 每 种 饮料 仅仅 需 
要 几 滴 原料 。 顾 客 在 自动 售 货 机 的 LCD 板 上 选择 一 个 品牌 和 原料 来 使 用 自动 售 货 机 ， 这 些 是 在 Windows CE 
操作 系统 上 进行 的 。 

RFID 技术 使 Coca- Cola 能 够 测试 新 的 饮料 口味 和 概念 ， 观 察 顾客 正在 选择 的 口味 和 组 合 ， 识 别 区 域 喜 
好 ， 跟 踪 他 们 正在 饮用 的 数量 。 通 过 自动 售 货 机 能 够 使 用 多 种 组 合 的 口味 ， 公 司 能 够 看 见 哪 种 新 的 组 合 是 
最 流行 的 ， 然 后 为 其 他 的 市 场 生产 这 种 产品 。 这 一 过 程 为 Coca-Cola 节约 了 成 本 。 之 前 公司 会 将 新 产品 制作 
成 瓶 ， 并 将 它们 送 到 各 种 各 样 的 市 场 。 有 时 在 一 两 年 后 产品 由 于 没有 受到 欢迎 被 取消 。 

RFID 技术 帮助 个 体 餐 厅 来 跟踪 什么 时 候 购 买 新 的 原料 ， 这 样 就 增加 了 库存 的 准确 率 ; 并 能 帮助 餐厅 决 
定 哪 种 口味 是 最 流行 的 ， 这 样 它 们 就 知道 存储 哪 种 产品 。 个 体 的 餐厅 能 够 查看 报告 ， 报 告 的 内 容 是 关于 饮 
料 的 消费 量 ， 饮 料 的 消费 量 是 由 从 RFID 系统 收集 来 的 数据 和 通过 使 用 Coca-Cola 开发 的 电子 商务 客户 端的 
产品 记录 生成 的 。 这 一 技术 甚至 能 够 使 餐厅 看 到 一 天 中 不 同 的 时 间 哪 种 饮料 是 最 受 欢 迎 的 。 

RFID 技术 是 通过 安放 在 每 一 种 口味 原料 上 的 RFID 的 条 码 和 安装 在 自动 售 货 机 内 的 RFID 阅读 器 来 工 
作 的 。 每 晚 ， 记 录 的 信息 通过 一 个 私有 的 Verizon 无 线 网 络 被 送 至 位 于 亚特兰大 总 部 的 Coca-Cola 的 SAP 数 
据 仓 库 系 统 。 为 移动 设备 服务 的 Microsoft System Center Configuration Manager 在 Coca-Cola 总 部 运行 ， 并 通过 
无 线 网 络 控制 自动 售 货 机 。 另 外 Coca-Cola 能 够 通过 无 线 网 络 为 自动 售 货 机 上 新 的 组 合 发 出 指令 ， 立 刻 在 全 
国 范 围 内 关闭 召回 的 原料 。 

这 一 简短 案例 说 明 ， 当 使 用 创新 的 思想 发 明 出 创新 的 应 用 时 新 技术 有 很 大 的 潜能 。 在 这 章 中 所 描述 的 
大 多 数 技术 是 新 生 的 和 没有 被 广泛 使 用 的 ， 所 以 有 创造 下 一 个 “杀手 ”应 用 的 机 会 。 例 如 ，RFID 的 使 用 
正在 增加 ， 每 个 使 用 的 公司 正在 探索 它 在 供应 链 、 零 售 商店 、 和 生产、 服务 运营 方面 的 用 处 。 这 个 案例 说 明 
了 将 想法 、 网 络 、 应 用 进行 正确 的 结合 ， 开 发 具有 创造 力 的 技术 是 可 能 的 。 这 些 技术 能 够 以 多 种 方式 影响 
一 个 企业 的 运作 。 

本 章 结尾 应 用 案例 的 问题 

1. 在 案例 中 RFID 在 减少 库存 方面 发 挥 的 作用 ? 

2. 一 个 和 餐厅 如 何 通 过 使 用 REID 进行 糖浆 原料 管理 获 利 的 ? 

3. 一 个 顾客 从 新 的 自动 售 货 机 中 会 得 到 哪些 好 处 ? 

4. 哪些 问题 会 影响 到 这 种 自动 售 货 机 的 广泛 使 用 ? 

来 源 ; Adapted from M. H. Weier,“ Coke’ s RFID-Based Dispensers Redefine Business Intelligence ,” Information Week, June 6, 

2009 , informationweek. com/story/showArticle. jhtml? articlelD =217701971 (accessed July 2009). 
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active data warehousing (动态 数据 仓库 ) ”参看 
Real-time Data Warehousing ( RDW), 

ad hoc query (特定 查询 ) 在 查询 发 出 时 刻 没有 
察觉 的 查询 。 

adaptive resonance theory ( 自 适应 共振 理论 ) 
由 Stephen grossberg 创造 的 一 个 非 监督 的 学 
习 方法 。 自 适应 共振 理论 是 一 种 神经 网 络 架 
构 ， 像 大 脑 一 样 的 一 种 无 人 监督 状态 。 

algorithm (算法 ) 通过 循序 渐进 的 搜索 来 一 步 
步 提 高 ， 直 到 发 现 最 好 的 解决 方案 。 

analytical models ( 分 析 模 型 ) ”加载 数据 用 来 分 
析 的 数学 模型 

analytical techniques (分 析 技 术 ) 使 用 数学 公 
式 直 接 派生 出 优化 方法 或 预测 某 个 结果 ， 主 
要 用 来 解决 结构 化 问题 。 

Application Service Provider ( ASP， 应 用 服务 提 
供 商 ) “为 组 织 提供 租赁 软件 的 软件 零售 商 。 

Apriori algorithm ( Apriori 算法 ) ”通过 使 用 递归 
的 方法 来 识别 频繁 项 集 ， 发 现 关 联 规则 的 最 
通用 算法 。 

area under the ROC curve (ROC 曲线 下 面积 ) 
ROC 曲线 下 面积 是 一 种 在 真 阳性 率 为 Y 轴 、 
假 阳 性 率 为 X 轴 上 绘制 的 二 元 分 类 模型 图 形 
评价 技术 。 

artificial intelligence ( 人 工 智能 ) “计算 机 科学 的 
分 支 ， 主 要 关注 符号 推理 和 解决 问题 。 

Artificial Neural Network (ANN， 人 工 神经 网 络 ) 
尝试 让 计算 机 像 人 脑 一 样 工 作 的 计算 机 技 
术 。 机 器 拥有 和 暂时 记忆 存储 ， 处 理 模棱两可 
的 信息 。 有 时 也 简单 称 为 神经 网 络 。 参 看 
neural computing。 

association (关联 ) “一 类 数据 挖掘 算法 ， 建 立 
与 给 定 的 记录 一 起 发 生 的 项 目 之 间 的 关系 。 

authoritative pages ( 权威 网 页 ) ”由 于 被 其 他 网 
页 和 指令 链接 被 认为 特别 流行 的 网 页 。 

automated decision support ( 自动 决策 支持 ) 
对 重复 管理 问题 提供 解决 方法 的 一 种 基于 规 
则 的 系统 ， 也 称 为 企业 决策 管理 。 


Automated Decision System (ADS， 自 动 决策 系 
统 ) ”使 用 智能 来 对 重复 决策 问题 推荐 解决 
方法 的 一 种 基于 商业 规则 的 系统 。 

axon (WF) 一 个 生物 神经 元 的 突出 连接 (也 
就 是 终端 ) o 

backpropagation ( 反 向 传播 ) ”神经 计算 中 最 知 
名 的 学 习 算法 ， 通 过 对 计算 输出 结果 与 期 望 
的 训练 集 输出 结果 进行 比较 来 完成 学 习 。 

Balanced Scorecard ( BSC, 平衡 记分 卡 ) 一 
种 绩效 评价 和 管理 方法 ， 用 来 帮助 将 组 织 的 
财务 ， 顾 客 ， 内 部 流程 ， 学 习 与 成 长 目标 和 
任务 转换 成 一 套 可 行 的 措施 。 

best practices (最 佳 实践 ) 组 织 中 解决 问题 的 
最 好 方法 。 这 些 通常 储存 在 知识 管理 系统 中 
的 知识 库 中 。 

BI governance ( 商务 智能 治理 ) ”优化 商务 智能 
的 流程 。 

bootstrapping ( 拨 靳 法 ) 一 种 从 原始 数据 中 不 
断 抽 取 固 定数 目的 实例 作为 (替代 ) 样本 用 
于 训练 ， 数 据 集中 剩余 的 数据 用 于 测试 的 抽 
样 方法 。 

brainstorming (头脑 风暴 ) ”人们 产生 想法 的 过 
E, 通常 有 软件 支持 ，( 例 如 对 问题 形成 可 
替代 方案 ) ， 也 称 为 产生 构思 。 

business analyst (业务 分 析 员 ) “从事 商业 流程 
分 析 ， 并且 得 到 信息 技术 支持 的 这 类 工作 
的 人 。 

business analytics (业务 分 析 ) ”对 商业 数据 直 
接 进 行 模型 应 用 。 业 务 分 析 包 括 使 用 决策 分 
析 工 具 ， 特 别 是 模型 ， 用 来 辅助 决策 者 。 最 
基本 的 是 联机 分 析 技 术 和 决策 支持 系统 ， 参 
看 Business Intelligence (BI) 。 

Business Intelligence (Bl， 商 务 智能 ) ”决策 支 
持 的 一 个 概念 框架 。 它 将 架构 、 数 据 库 (或 
数据 仓库 ) 、 分 析 工 具 及 应 用 程序 结合 起 来 。 

Business Performance Management ( BPM, 业 
务 绩效 管理 ) ”一 种 先进 的 绩效 评价 和 分 析 
方法 ， 包 含 计 划 和 战略 。 参 看 Corporate Per- 


formance Management。 
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categorical data (分 类 数据 ) ”代表 多 个 类 的 标 
签 ， 用 于 转换 为 特定 的 群体 变量 。 

clickstream data ( 点 击 流量 数据 ) 网络 环境 中 
产生 的 数据 分 析 。 

cloud computing (AHA) ”可 作为 服务 的 信息 
技术 架构 硬件、 软件、 应 用 、 平 台 ),， 通 
常 作为 虚拟 资源 。 

clustering (RX) ”将 数据 库 分割 成 段 ， 每 段 成 
员 具 有 相似 的 性 质 。 

Collaborative Decision Making ( CDM, 协同 决 
R) ”将 商务 智能 和 社交 软件 集成 的 一 种 新 
的 决策 方式 。 

complexity (复杂 度 ) ”根据 优化 模式 ， 所 需要 的 
优化 努力 ， 或 者 随机 属性 ， 测 试问 题 多 么 困 
难 的 一 种 度量 方法 。 

confidence ( 置信 和 度 ) ”在 关联 规则 里 ， 发 现 规则 
的 RHS 出 现在 规则 LHS 的 交易 列表 中 的 条 
件 概 率 。 

connection weight (连接 权重 ) ”神经 网 络 模 型 
中 每 个 连接 环节 的 权重 。 神 经 网 络 学 习 算 法 
评价 连接 权重 。 

Corporate Performance Management (CPM, ® 
业绩 效 管理 ) ”一 种 先进 的 绩效 评价 和 分 析 
方法 ， 包 含 计划 和 战略 。 参 看 Business Per- 
formance Management。 

corporate portal ( 公司 门户 网 站 ) ”进入 公司 网 
站 的 入 口 。 公 司 门户 网 站 可 以 通信 、 协 调 、 
接 人 公司 信息 。 

corpus (语料库 ) ”在 语言 学 中 ， 用 于 实施 知识 
发 现 目 的 的 大 量 结构 化 的 文本 (通常 以 电子 
形式 存储 和 处 理 ) 。 

CRISP-DM ( 跨行 业 数 据 挖掘 过 程 标 准 ) 一 个 
实施 数据 挖掘 的 跨行 业 标准 流程 。 按 顺序 一 
共 六 步 ， 开 始 于 对 商务 很 好 的 理解 及 对 数据 
挖掘 的 需求 (也 就 是 应 用 域 ) ， 结 束 于 满足 
特殊 商务 需求 的 解决 方案 部 署 。 

Critical Success Factors (CSF， 关 键 成 功 因素 ) 
描述 组 织 必须 在 它 的 市 场 空间 中 必须 胜出 的 
关键 因素 。 

cube (ZAW) ”允许 用 户 有 组 织 地 将 一 个 立方 
体 中 任何 属性 的 高 度 相 互 关联 的 数据 子 集 
(如 商店 、 产 品 、 顾 客 、 供 应 商 ) 与 另 一 个 
立方 体 中 的 度量 (如 销售 、 利 泣 、 单 位 、 年 
龄 ) 相 结 合 来 制造 各 种 二 维 的 视角 ， 这 些 可 


以 显示 在 顾客 的 计算 机 屏幕 上 。 

Customer Experience Management ( CEM， 客 
户 经 验 管理 ) ”通过 检测 网 络 应 用 事件 及 问 
题 ， 跟 踪 和 解决 商务 流程 和 应 用 障碍 ， 报 告 
现场 性 能 和 可 用 性 ， 实 现实 时 警报 和 控制 ， 
对 被 观察 参观 者 行为 深度 处 理 的 诊断 ， 从 而 
得 出 整体 用 户 经 验 的 报告 。 

dashboard (仪表 盘 ) ”让 执行 人 员 查 看 关键 数据 
的 可 视 化 表示 ， 可 以 让 执行 者 看 到 每 分 钟 的 

data (数据 ) ”自身 没有 意义 的 原始 事实 (例如 
名 字 、 数 字 ) 。 

data cube (数据 立方 体 ) ”二 维 、 三 维 ， 或 者 更 
高 维 对 象 ， 里 面 每 个 维度 的 数据 代表 一 个 利 
益 的 度量 。 

data integration ( 数据 集成 ) ”集成 由 三 个 主要 
过 程 组 成 : 数据 接 人 人， 数据 联合 ,改变 捕 
获 。 当 这 三 个 过 程 正 确实 施 时 ， 数 据 能 够 被 
访问 ， 并 且 访 问 数据 提取 、 转 换 和 加 载 的 数 
组 ， 分 析 工 具 ， 以 及 数据 仓库 环境 。 

data integrity (数据 完整 性 ) ”数据 质量 的 一 部 
分 ,在 任何 操作 中 〈 如 转移 、 存 储 、 检 索 ) 
都 保持 数据 总 体 的 真实 性 。 

data mart (数据 集 市 ) ”数据 仓库 的 一 个 部 门 的 
数据 ， 只 存储 相关 数据 。 

data mining (数据 挖掘 ) ”使 用 统计 、 数 学 、 人 
工 智能 、 机 器 学 习 技 术 从 大 型 数据 库 中 抽 
取 、 识 别 有 用 信 息 和 后 续 知 识 。 

data quality (数据 质量 ) ”数据 的 历史 质量 , 包 
括 真实 性 、 精 确 性 、 完 整 性 和 相关 性 。 

data visualization (数据 可 视 化 ) ”数据 以 及 数据 
分 析 结 果 的 图 形 化 、 动 画 或 视频 演示 。 

data warehouse (数据 仓库 ) ”相关 数据 按照 标 
准 形式 特殊 地 组 织 起 来 ， 能 够 提供 企业 范围 
级 别 的 干净 数据 的 一 个 物理 库 。 

Data Warehouse Administrator ( DWA， 数 据 仓 
库 管理 员 ) ”负责 数据 仓库 管理 的 人 。 

database (数据 库 ) ”被 认为 是 简单 存储 概念 的 
文件 集 ， 这 样 数据 可 以 被 更 广泛 的 用 户 
使 用 。 

Database Management System ( DBMS， 数 据 
库 管理 系统 ) ”建立 、 升 级、 查询 (例如 管 
理 ) 数据 库 的 软件 。 

deception detection ( 欺诈 行为 侦查 ) ”以 声音 、 


文本 以 及 人 体 语言 形式 识别 欺诈 行为 (故意 
传播 不 正确 的 信仰 ) 的 方法 。 

decision making (决策 判定 ) ”在 可 替换 中 选择 
的 行为 。 

Decision Support System (DSS, 决策 支持 系 
统 ) 支持 管理 决策 流程 的 概念 性 框架 ， 通 
常 通过 建 模 问题 和 定量 模型 来 分 析 解 决 
方案 。 

decision tree (决策 树 ) ”在 假定 风险 下 ， 相 互 关 
联 的 决策 序列 的 图 形 表示 。 这 一 技术 将 特殊 
实体 按照 实体 属性 分 为 特殊 类 ; 根 的 后 面 是 
内 部 节点 ， 每 个 节点 〈 包 括 根 ) 有 一 个 问题 
标签 ， 与 每 个 节点 相关 的 弧 包 括 所 有 可 能 的 
反应 。 

dendrite ( 树 突 ) 生物 神经 元 部 分 ， 给 细胞 提供 
输入 。 

dependent data mart ( 非 独 立 数据 集 市 ) ”数据 
仓库 直接 生成 的 子 集 。 

diagnosis control system (诊断 控制 系统 ) 一 种 
控制 论 系统 ， 它 具有 输入 ,将 输入 转化 为 输 
出 的 处 理 ， 与 输出 结果 对 比 的 一 个 标准 或 对 
照 标准 ， 一 个 反馈 渠道 ， 允 许 信 息 在 输出 和 
标准 之 间 变 化 ， 实 现 通信 和 采取 行动 。 

dimension table (维度 表 ) 表示 数据 如 何 被 分 
析 的 表 。 

dimensional modeling (维度 建 模 ) ”支持 高 容量 
查询 访问 的 检索 系统 。 

discovery-driven data mining (发 现 驱 动 型 数据 
挖掘 ) ”一 种 数据 挖掘 的 形式 ， 用 来 发 现 数 
据 的 类 型 、 关 联 和 关系 ， 目 的 是 发 现 组 织 以 
前 不 知道 ， 或 者 没有 考虑 的 事实 。 

distance measure ( 距离 测度 ) ”在 大 多 数 聚 类 分 
析 中 ， 用 来 计算 项 目 之 间 亲 密 程度 的 方法 。 
流行 的 距离 测量 方法 包括 欧 几 米 德 距离 (用 
一 个 规则 测试 两 点 之 间 的 通常 距离 ) 和 曼 哈 
WER (也 称 为 两 点 之 间 直 线 距 离 ， 或 出 租 
车 距离 ) 。 

DMAIC 一 个 闭环 业务 改进 模型 ， 包括 以 下 几 
步 : 定义、 测度、 分析、 改进 和 控制 一 个 
流程 。 

drill down ($R) 信息 的 详细 调查 (例如 ,不 
仅 发 现 整 个 销售 量 ， 还 要 发 现 按 地 区 、 产 
品 、 销 售 人 员 划 分 来 销售 量 ) ， 发 现 详细 的 
来 源 。 
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Enterprise Application Integration ( EAI, 企业 应 
用 集成 ) ”提供 将 数据 从 源 系统 推 入 数据 仓 
库 工具 的 一 种 技术 。 

Enterprise Data Warehouse (EDW, 企业 数据 
仓库 ) ”为 了 分 析 目 标 开 发 的 企业 级 数据 
仓库 。 

enterprise decision management (企业 决策 管 
理 ) ”请 看 Automated Decision Support, 

Enterprise Information Integration (Ell, 企业 信 
BRM) ”实现 将 来 自 关 系数 据 库 、 网 络 服 
务 、 多 维 数据 库 等 各 种 来 源 的 实时 数据 集成 
的 进化 工具 。 

entropy (#8) 在 数据 集 测量 不 确定 性 或 随机 性 
程度 的 一 个 度量 标准 。 如 果 数 据 集 中 的 所 有 
数据 只 属于 一 类 ， 那 么 这 个 数据 集中 就 没有 
ANE PEA BEADLE, EC 

expert ( 专家) ”在 特殊 或 很 窄 的 领域 内 做 出 熟 
练 判 断 的 人 。 

extraction (提取 ) 从 多 个 来 源 中 捕获 数据 ,， 合 
成 数据 ， 提 炼 数 据 ， 决 定 哪些 是 相关 的 ， 然 
后 以 有 效 的 集成 方式 将 它们 组 织 起 来 的 
流程 。 

Extraction, Transformation, and Load (ETL, 
提取 、 转 换 和 加 载 ) ”由 提取 、 转 换 和 加 载 
构成 的 数据 仓库 流程 。 提 取 就 是 从 数据 库 读 
取 数 据 。 转 换 就 是 将 提取 的 数据 从 以 前 的 形 
式 转换 为 需要 的 形式 ， 这 样 就 可 以 放 人 数据 
仓库 或 者 另 一 个 简单 的 数据 库 。 加 载 就 是 将 
数据 放 入 数据 仓库 。 

functional integration (功能 集成 ) ”通过 一 个 单 
一 的 、 一 致 界面 的 简单 系统 提供 不 同 的 支持 
功能 。 

fuzzy logic (模糊 逻辑 ) ”一 种 逻辑 上 一 致 的 推理 
方式 。 能 够 处 理 不 确定 性 或 者 部 分 信息 。 模 
糊 逻 辑 具 有 人 类 思考 和 专家 系统 的 特性 。 

genetic algorithm ( 遗传 算法 ) ”以 渐进 方式 学 习 
的 软件 程序 ， 与 生物 逻辑 系统 进化 相近 。 

Geographical Information System (GIS， 地 理 信 
BAS) ”能 够 集成 、 编 辑 、 分 析 、 分 享 、 
显示 地 理 相关 信息 的 信息 系统 。 

Gini index (基尼 系数 ) ”经 济 上 用 来 度量 人 口 多 
样 性 的 度量 标准 。 相 同 的 概念 可 以 用 于 作为 
一 个 分 支 ， 按 特定 属性 /变量 决定 的 结果 确 
定 一 个 特定 的 类 的 纯度 。 
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Global Positioning System (GPS, 全球 定位 系 
统 ) 使 用 卫星 让 用 户 能 够 相对 精确 地 检测 
到 连接 设备 上 的 (车 或 人 ) 在 地 球 上 的 位 置 
的 一 种 无 线装 置 。 

grain (粒度 ) ”数据 仓库 中 支持 最 高 级 别 的 详细 
定义 。 

Graphical User Interface (GUI, 图 形 用 户 界 面 ) 
一 个 交互 的 、 用 户 友好 的 界面 ， 通 过 使 用 图 
标 和 类 似 的 对 象 ， 用 户 能 够 控制 和 计算 机 的 
通信 。 

Heuristics (启发 式 ) ”应 用 领域 里 ， 判 断 规则 组 
成 的 非 正 式 和 判断 性 的 知识 。 启 发 式 包含 如 
何 有 效 解决 问题 ， 如 何 制定 解决 复杂 问题 的 
计划 步骤 ， 如 何 提高 性 能 的 知识 等 。 

hidden layer ( 隐 含 层 ) 具有 三 层 或 多 层 的 人 工 
神经 网 络 的 中 间 层 。 

hub ( 中 转 站 ) 一 个 或 多 个 网 页 ， 提 供 链接 到 授 
权 网 页 的 集合 。 

Hyperlink- Induced Topic Search (HITS ， 超 链接 
主题 搜索 ) Web 挖掘 中 众所周知 使 用 最 广 
泛 的 引用 算法 ， 用 于 发 现 链接 权威 度 和 内 容 
权威 度 。 

hypothesis-driver data mining (假设 驱动 型 数据 
挖掘 ) 一 种 数据 挖掘 的 类 型 ， 从 用 户 的 一 
个 命题 开始 ， 然 后 寻找 命题 的 真实 性 。 

independent data mart ( 独立 数据 集 市 ) ”为 一 
个 战略 商务 单位 或 部 门 设立 的 小 数据 仓库 。 

information overload (信息 过 载 ) 提供 的 数据 
太 多 ， 对 个 体 来 说 处 理 和 吸收 任务 很 困难 。 

information (信息 ) 数据 按照 有 意义 的 形式 
组 织 。 

information gain (信息 粒度 ) 1D3 筑 法 中 使 用 的 
分 离 机 制 。 

intelligence ( 智能 ) ”通常 面向 解决 任务 和 问题 
的 一 定 程 度 的 推理 和 学 习 行 为 。 

intelligent agent (智能 代理 ) ”一 种 散人 入 计算 机 
信息 系统 ， 使 其 更 加 聪明 的 基于 知识 或 专家 
系统 的 系统 。 

interactivity ( 交互 性 ) ”软件 代理 的 属性 ， 允 许 不 
依赖 于 人 的 介入 能 够 相互 交互 (通信 和 协同 ) 。 

interval data (区 间 数 据 ) ”在 区 间 范 围 内 可 测量 
的 变量 。 

inverse document frequency ( 逆 文 档 频 率 法 ) 
一 种 在 术语 文档 矩阵 中 通用 而 且 非 常 有 用 的 


目录 转换 ， 表 明了 词 的 特殊 性 (文档 频率 ) 
以 及 它们 整体 发 生 的 频率 (术语 频率 )。 

Key Performance Indicator (KPI, 关键 绩效 指 
标 ) ”面向 战略 和 目标 的 绩效 考核 。 

k-fold cross-validation (k 折 交叉 确认 ) 一 种 流 
行 的 用 于 预测 模型 的 真实 度 评价 技术 。 将 完 
整 的 数据 集 大 体 按 相 同 尺 寸 随 机 分 成 份 ， 
分 类 模型 要 重复 大 次 来 训练 和 测试 数据 。 每 
次 选取 1 个 作为 测试 数据 ， 其 余 的 作为 训练 
数据 。 交 叉 检 验 评价 模型 的 整体 真实 性 是 将 
每 次 实验 的 真实 性 测试 进行 平均 的 最 后 值 。 

knowledge (知识 ) ”从 教育 或 经 验 中 理解 、 认 知 
或 精确 获得 的 ， 任 何 可 以 学 习 、 察 觉 、 发 
现 、 推 论 、 理 解 的 ; 对 信息 使 用 的 能 力 。 在 
知识 管理 系统 中 ， 知 识 是 采取 行动 的 信息 。 

knowledge base (知识 库 ) 事实、 规则 、 具 有 
模式 的 程序 的 集合 。 知 识 库 是 有 关 特 殊 兴趣 
领域 的 所 有 信息 和 知识 的 集合 体 。 

Knowledge Discovery in Databases ( KDD 数据 
库 ， 知 识 发 现 ) ”执行 规则 归纳 或 相关 程序 ， 
从 大 型 数据 库 中 建立 知识 的 机 器 学 习 过 程 。 

knowledge management ( 知识 管理 ) 组织 中 专 
业 知 识 的 动态 管理 。 包 括 收集 、 分 类 和 传播 
知识 。 

Kohonen’ s self- organizing feature map ( Koho- 
nen 的 自 组 织 特征 映射 ) ”一 种 典型 的 机 器 
学 习 神 经 网 络 模型 。 

Lean Manufacturing (精益 生产 ) 消除 流程 中 浪 
费 或 没有 增值 特性 的 生产 方法 。 

learning (学 习 ) 通过 利用 已 经 知道 的 来 获得 新 
知识 的 自我 提高 过 程 。 

learning algorithm (学 习 算 法 ) ”用 于 人 工 神经 
网 络 的 训练 过 程 。 

link analysis (链接 分 析 ) ”许多 有 趣 对 象 之 间 的 
链接 被 自动 发 现 ， 例 如 学 术 刊 物 的 作者 群体 
之 间 的 网 页 链接 和 引用 关系 。 

machine learning (机 器 学 习 ) ”计算 机 从 经 验 中 
学 习 的 过 程 〈 例 如 ， 利 用 程序 聪 历史 案例 中 
学 习 ) 。 

management science (管理 科学 ) ”应 用 科学 方 
法 和 数学 模型 分 析 和 解决 管理 决策 情况 〈 例 
如 问题 ， 机 会 ) ， 也 称 为 运营 研究 。 

metadata (元 数据 ) ”关于 数据 的 数据 。 在 数据 
仓库 中 ， 元 数据 描述 数据 仓库 及 其 使 用 方式 


的 内 容 。 

Microsoft enterprise consortium ( 微软 企业 财团 ) 
从 全 世界 范围 接 人 Microsoft SQL Server2008 
软件 套装 ， 用 于 学 术 目 的 一 一 教学 与 研究 。 

middleware (中 间 件 ) ”连接 不 同 计算 机 语言 
平台 应 用 模块 的 软件 。 

mobile social networking (移动 社交 网 络 ) ”成员 
之 间 使 用 手机 或 其 他 移动 设备 交谈 和 联系 。 

multidimensional analysis (多 维 分 析 ) 包含 多 
个 纬度 数据 分 析 的 建 模 方 法 。 

multidimensional database ( 多维 数 据 库 ) ”数据 
特殊 地 组 织 起 来 支持 简单 和 快速 多 维 分 析 的 
数据 库 。 

Multidimensional OLAP (MOLAP, 多维 联机 分 
析 处 理 ) ”通过 特殊 的 多 维 数据 库 (或 数据 
存储 ) 实施 联机 分 析 处 理 ， 提 前 将 交易 总 结 
为 多 维 视图 。 

multidimensionality ( 多维 性 ) ”从 多 个 维度 组 织 、 
呈现 、 分 析 数 据 ， 例 如 按 地 区 、 按 产品 、 按 
销售 员 、 按 时 间 划 分 的 销售 额 〈 四 个 维度 ) 。 

Multi-Layered Perceptron (MLP， 多 层 感 知 ) 
人 工 神 经 网 络 分 层 结构 中 多 个 隐 含 层 可 以 放 
置 在 输入 层 和 输出 层 。 

Natural Language Processing (NLP, 自然 语言 
处 理 ) ”使 用 自然 语言 处 理 器 与 计算 机 系统 
接口 。 

neural computing (神经 计算 ) 一 种 实验 计算 机 
设计 ， 目 的 是 以 一 种 人 脑 功能 建 模 操 作 方 式 
建立 智能 计算 机 。 

neural network (神经 网 络 ) ”请 看 Artificial Neu- 
ral Network, 

neuron (神经 元 ) ”生物 逻辑 或 人 工 神 经 网 络 的 
一 个 细胞 〈 也 就 是 处 理 元 素 ) 。 

nominal data ( 名 称 数 据 ) 一 种 包含 为 对 象 标签 
简单 代码 测量 的 数据 类 型 ， 它 是 不 用 测量 
的 。 例如， 婚姻 状况 变量 能 够 通常 分 为 : 
(1) 单身 ; (2) 已 婚 ; (3) 离婚 。 

numeric data (数值 数据 ) ”代表 特殊 变量 数值 的 
一 类 数据 。 大 量 的 数字 数值 变量 包括 : 年 
龄 、 孩 子 数目 、 家 庭 整 体 收 入 以 美元 计 
算 )、 旅 行距 离 (英里 )、 温 度 (ERE). 

Online Analytical Processing (OLAP, 在 线 分 析 
处 理 ) 一 种 信息 系统 ， 能 够 让 用 户 查 询 系 
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统 ， 实 施 分 析 等 ， 结 果 会 在 几 分 钟 内 产生 。 

Online Transaction Processing ( OLTP, 在线 交 
易 处 理 ) “主要 用 于 捕获 和 存储 日 常 商务 功 
能 数据 的 交易 系统 。 

oper mart (操作 集 市 ) ”一 种 可 操作 数据 集 市 。 
一 个 操作 集 市 是 组 织 中 单一 部 门 或 功能 区 域 
使 用 的 小 规模 数据 集 市 。 

Operational Data Store ( ODS， 业务 数据 存储 ) 

一 种 数据 库 类 型 ， 通 常用 于 数据 仓库 的 一 

个 过 渡 区 ， 特 别 是 客户 信息 文件 。 

optimization ( 优化) ”辨别 出 可 能 是 最 好 的 问题 
解决 方案 的 流程 。 

ordinal data (序数 数据 ) ”包含 代表 等 级 顺序 ， 
作为 标签 分 配给 对 象 和 事件 的 代码 。 例 如 ， 
信用 分 数 变量 可 以 整体 分 为 几 类 : (1) 低 ; 
(2) 中 ; (3) 高 。 

parallel processing (并 行 处 理 ) ”一 种 先进 的 计 
算 机 处 理 技 术 ， 人 允许 计算 机 立刻 并 行 地 完成 
多 种 处 理 。 

part-of-speech tagging (词性 标注 ) ”基于 字 在 
使 用 中 的 的 定义 ， 上 下 文 ， 对 文本 中 的 词 
(如 名 词 、 动 词 、 形 容 词 、 副 词 等 ) 标记 成 
为 演讲 中 特殊 的 部 分 。 

pattern recognition ( 模式 识别 ) ”一 种 将 外 部 类 
型 与 计算 机 存储 记忆 中 的 类 型 匹配 的 技术 
(也 就 是 说 ， 将 数据 按 已 决定 的 类 别 进行 分 
类 ) 。 类 型 识别 用 于 推理 机 、 图 形 处 理 、 神 
经 计算 和 语音 识别 。 

performance measurement systems ( 绩效 考核 
系统 ) ”将 业务 指标 与 定期 反馈 报告 结合 起 
来 显示 围绕 目标 进步 的 系统 方法 。 

physical integration ( 物理 集成 ) ”将 多 个 系统 无 
缝 集成 为 一 个 功能 系统 。 

polysemes (多 义 词 ) 也 称 为 同音 异 义 词 。 它 们 
是 语法 相同 (也 就 是 拼写 一 样 ), 但 是 意思 
不 同 的 词 ， 例 如 bow 可 以 翻译 为 “前 倾 ”， 
或 者 是 “ 船 的 前 面 ”、“ 射 箭 的 武器 ”、“ 一 

prediction (预测 ) ”讲述 未 来 的 行为 。 

predictive analysis (预测 分 析 ) “利用 工具 帮助 
决定 事件 或 状况 发 生 的 可 能 的 未 来 输出 。 

predictive analytics (预测 分 析 学 ) ”一 种 用 于 预 
测 的 商业 分 析 方 法 (例如 需求 、 问 题 、 机 
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会 ) ， 而 不 是 用 于 简单 的 报告 数据 。 

privacy ( 隐私) 通常 是 指 独 处 权 和 免 受 不 合理 
的 个 人 侵入 。 信 息 隐 私 是 决定 一 个 人 的 信息 
在 什么 时 候 ， 可 以 以 什么 程度 传递 给 其 他 人 
的 权利 。 

problem solving (问题 解决 ) 一 个 人 从 最 初 的 
状态 开始 着 手 一 个 过 程 ， 通 过 问题 空间 的 搜 
索 ， 以 确定 一 个 预期 的 目标 。 

Processing Element ( PE， 处 理 单 元 ) ”神经 网 
络 中 的 一 个 神经 元 。 

prototyping (原型 ) 在 系统 开发 中 ， 在 很 短 的 
时 间 内 构建 按 比例 缩小 的 系统 或 者 系统 的 一 
部 分 , 经 过 多 次 迭代 后 进行 改进 的 一 种 
策略 。 

RapidMiner ”一 种 流行 的 、 开 源 的 、 免 费 的 数据 
挖掘 软件 套件 ， 采 用 了 图 形 用 户 增强 界面 ， 
具有 大 量 的 算法 和 一 系列 数据 可 视 化 特点 。 

ratio data (比率 数据 ) ”解释 连续 的 数据 差异 和 
比率 。 比 率 规 模 的 显著 特点 是 拥有 非 任意 零 
比率 。 

Real-time Data Warehousing (RDW， 实 时 数据 
仓库 ) ”加 载 数 据 ， 并 通过 数据 仓库 提供 数 
据 ， 使 其 可 用 的 过 程 。 

reality mining (RRS) ”基于 本 地 数据 的 数 
据 挖掘 。 

regression (回归 ) 一 种 用 于 真实 世界 预测 问题 
的 数据 挖掘 模型 。 它 的 预测 值 (也 就 是 说 ， 
输出 变量 或 者 因 变 量 ) 是 数字 ( 如， 预测 明 
天 的 天 气 是 68 ERE). 

relational database (关系 数据 库 ) ”数据 库 的 记 
录 有 组 织 地 形成 表 ， 这 些 表 可 以 被 关系 代数 
或 者 关系 演算 进行 处 理 。 

Relational OLAP (ROLAP) 关系 型 联机 分 析 
处 理 。 

result (outcome) variable ( 结果 变量 ) ”表达 决 
策 结 果 的 变量 (例如 ， 关 心 的 利润 )， 通常 
是 一 个 决策 问题 的 目标 。 

RFID (无 线 射 频 识别 技术 ) ”利用 射频 波 来 识别 
物体 的 一 种 通用 技术 。 

risk (风险 ) ”概率 或 随机 决定 的 情况 。 

robot (机 器 人 ) 具有 没有 人 的 干预 可 以 完成 手 
动 功 能 能 力 的 机 器 。 

SAS Enterprise Miner 由 SAS 研究 所 开发 的 一 
款 全 面 的 商业 数据 挖掘 软件 。 


scenario (场景 ) 关于 一 个 特定 系统 在 特定 的 时 
间 运 作 环 境 的 假设 和 配置 的 声明 。 | 

scorecard (记分 卡 ) 一 个 可 视 化 显示 ,通过 图 
表 显 示 战 略 、 战 术 和 任务 目标 。 

search engine ( 搜索 引擎 ) 发现 并 列 出 符合 一 
些 用 户 选 择 标准 的 网 址 或 网 页 (通过 统一 资 
源 定位 符 URLS 设计 )。 

SEMMA SAS 研究 所 提出 的 数据 挖掘 项 目的 蔡 
代 过 程 ， 是 抽样 、 探 索 、 修 正 、 建 模 和 分 析 
的 缩写 。 

sensitivity analysis ( 敏感 分 析 ) 一 个 或 多 个 输 
入 变量 对 提出 的 解决 方案 影响 的 研究 。 

sentiment analysis (语义 分 析 ) ”使 用 大 量 的 文 
本 数据 源 对 特定 商品 或 服务 喜欢 还 是 不 喜欢 
观点 进行 探测 的 一 种 技术 。 

sequence discovery (序列 发 现 ) ” 随 着 时 间 推 移 
进行 关联 辨别 。 

sequence mining (序列 挖掘 ) 一 种 发 现 方 法 模 
A, 事物 之 间 的 关系 是 根据 它们 出 现 的 顺序 
来 考察 的 ， 以 此 来 辨别 时 间 推 移 关 联 。 

sigmoid function (S 型 函数 ) 从 0 到 1 的 S 型 
转换 功能 。 

simple split (简单 拆 分 ) ”数据 被 分 割 为 两 个 相 
互 排斥 的 子 集 ， 称 为 训练 集 和 测试 集 。 通 常 
是 将 2/3 的 数据 设计 为 训练 集 ，1/3 的 数据 
设计 为 测试 集 。 

Singular Value Decomposition ( SVD， 育 异 值 分 
解 ) 与 主 成 分 分 析 密 切 相关 ， 它 将 输入 矩 
阵 ( 输 入 文档 的 数量 和 抽取 术语 的 数量 ) 的 
整体 维度 减少 到 低 维 ， 每 个 连续 维度 代表 最 
大 程度 的 (文字 与 文档 的 ) 可 变性 。 

Six sigma (六 西格玛 ) ”一 种 绩效 管理 方法 ， 目 
的 是 在 业务 流程 中 每 百 万 缺陷 机 会 减少 
到 零 。 

snowflake schema ( 雪花 架构 ) ”雪花 架构 是 多 
维 数据 库 中 表 的 逻辑 关系 ， 其 实体 关系 图 表 

Social Network Analysis (SNA， 社 交 网 络 分 析 ) 
人 、 团 体 、 计 算 机 、 其 他 信息 和 知识 处 理 实 
体 之 间 的 关系 和 信息 流 的 映射 和 测量 。 网 络 
节点 是 人 和 团体 ， 连 接 显示 了 节点 之 间 的 关 
系 和 流动 。 社 交 网 络 分 析 提 供 了 关系 的 可 视 
化 和 数学 分 析 。 

software agent (软件 代理 ) ”坚持 完成 (由 所 有 


A) 设计 的 任务 的 一 款 自主 软件 。 

Software as a Service ( SaaS， 软 件 即 服务 ) 
软件 是 出 租 的 而 不 是 卖 的 。 

speech (voice) recognition (语音 识别 ) AT 
智能 研究 的 一 个 领域 ,尝试 允许 计算 机 识别 
人 的 语言 字句 。 

SPSS PASW Modeler 由 SPSS (以 前 的 Clemen- 
tine) 开发 的 一 款 非常 流行 的 商业 化 的 ， 全 
面 的 数据 、 文 本 、Web 挖掘 软件 套件 。 

star schema ( 星 形 架构 ) ”最 常用 的 和 最 简单 的 
三 维 造型 风格 。 

stemming (词根 ) ”为 了 在 文本 挖掘 项 目 中 更 好 
地 表现 它们 ， 减 少 单词 直到 它们 的 根 形 式 。 

stop words (无 用 词 ) ”被 过 滤 掉 的 自然 语言 3 
据 处 理 之 前 或 之 后 的 话 。 

story (故事 ) 具有 丰富 信息 和 情节 的 案例 。 教 
训 通常 是 从 那些 案例 库 中 的 案例 中 提炼 出 
来 的 。 

strategic goal (战略 目标 ) ”在 指定 时 间 内 客观 
量化 的 目标 。 

strategic objective (战略 目的 ) ”描述 组 织 目标 
方向 的 一 个 广泛 的 声明 或 行动 。 

Strategic theme (战略 主题 ) 与 战略 目标 相关 的 
一 些 集合 体 ， 用 来 建华 战略 地 图 的 结构 。 

strategic vision (战略 愿景 ) ”关于 组 织 在 未 来 看 
起 来 会 是 怎样 的 图 画 或 心理 意象 。 

strategy map (战略 地 图 ) ”从 四 个 平衡 记分 卡 的 
四 个 视角 体现 组 织 的 关键 目标 之 间 关 系 的 一 
个 可 视 化 显示 。 

Structured Query Lanaguage ( SQL， 结构 化 查 
询 语言 ) 关系 型 数据 库 的 数据 定义 和 管理 
语言 。SQL 前 端 是 关系 型 数据 库 管理 系统 。 

stummation function ( 求 和 函数 ) ”添加 到 一 个 
特定 的 神经 元 的 输入 机 制 。 

supervised learning (监督 学 习 ) 一 种 人 工 神经 
网 络 的 训练 方法 ， 样 本 案例 作为 网 络 的 输 
入 , 为 了 减少 输出 的 错误 ,权重 被 调整 到 
最 小 。 

support (支持 ) ”测试 产品 或 服务 多 久 一 起 出 现 
在 相同 的 交易 中 ， 也 就 是 说 ， 数 据 集 中 在 特 
殊 规则 下 ， 包 含 所 有 产品 和 服务 交易 的 
分 比 。 i 

Support Vector Machine ( SVM， 支持 向 量 机 ) 
广义 线性 模型 ， 从 而 实现 输入 功能 的 线性 组 


合 价值 为 基础 的 分 类 或 回归 的 决定 。 

synapse ( 突 触 ) 在 神经 网 络 处 理 单元 之 间 的 连 
接 E). 

system architecture ( 系统 架构 ) ”系统 的 逻辑 和 
物理 设计 。 

Term-Document Matrix ( TDM ， 文 献 术 语 和 矩阵 ) 
创建 数字 化 和 组 织 化 的 文献 (语料库 ) 的 频 
率 矩 阵 ， 其 中 ， 列 代表 术语 ， 行 代表 各 个 
文档 。 

text ming (文本 挖掘 ) 数据 挖掘 在 非 结 构 化 和 
很 少 结构 化 文本 文件 中 的 应 用 。 它 可 以 从 非 
结构 化 文本 中 产生 有 意义 的 数字 指标 ， 然 后 
用 各 种 数据 挖掘 算法 处 理 哪些 指标 。 

tokenizing (标记 处 理 ) ”根据 它 表 现 的 功能 对 一 
块 文本 (表征 ) 分 类 。 

transformation (transfer) functions (转换 函数 ) 

在 一 个 神经 网 络 中 ， 总 结 和 转换 在 一 个 神 
经 元 出 发 之 前 的 输入 ， 显 示 了 内 部 激活 水 平 
和 神经 元 输出 之 间 的 关系 。 

trend analysis (趋势 分 析 ) ”收集 信息 ， 并 尝试 
发 现 信息 的 类 型 和 趋势 。 

unsupervised learning (无 监督 学 习 ) ”这 是 自 组 
织 训练 人 工 神经 网 络 的 一 种 方法 ， 只 有 输入 
刺激 能 够 在 网 络 中 显示 。 

user interface (用 户 界 面 ) ”一 个 计算 家 系统 的 
组 成 部 分 ， 人 允许 系统 和 用 户 之 间 进 行 双向 
沟通 。 

utility (on-demand) computing ( (面向 需求 的 ) 
效用 计算 ) “无限 的 计算 能 力 和 存储 容量 ， 
就 如 电力 、 水 和 电话 服务 ， 账 单 基于 每 次 使 
用 的 基础 上 付费 ， 可 按 需 获得 ， 使 用 并 按 任 
何 应 用 重新 分 配 。 

virtual (Internet) community (虚拟 (因特网 ) 
社团 ) ”具有 相似 兴趣 的 一 组 人 ,通过 使 用 
因特网 进行 相互 交互 。 

virtual team (虚拟 团队 ) ”一 个 团队 的 成 员 在 不 
同 的 地 方 一 起 开会 。 

Virtual worlds (虚拟 世界 ) ”由 计算 机 系统 创造 的 
人 工 世 界 ， 在 这 里 用 户 具有 沉静 在 其 中 的 
感觉 。 

Voice of Customer (VOC， 用 户 的 声音 ) ”通过 
网 站 访问 者 的 直接 反馈 ， 对 其 他 网 站 和 线 下 
渠道 的 标杆 收集 和 报告 ， 支 持 未 来 访客 行为 
的 预测 模型 这 些 行为 ， 将 问题 集中 于 “ 谁 和 
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如 何 做 ”的 应 用 。 

Web 2.0 高 级 因特网 技术 的 流行 术语 ， 包 括 博 
克 、 维 基 百 科 、RSS、 社 会 书签 等 。Web 2.0 
和 传统 万 维 网 的 一 个 最 重要 的 区 别 是 因特网 
用 户 和 其 他 用 户 、 内 容 提供 商 、 企 业 之 间 更 
大 的 合作 。 
Web analytics (Web 分 析 ) ”商务 分 析 活 动 在 基 
于 Web 流程 ， 包 括 电子 商务 上 的 应 用 。 
Web content mining (Web AH) ”从 网 页 
上 提炼 有 用 的 信息 。 

Web crawler (网 络 爬 虫 ) ”自动 读 取 网 站 内 容 的 
一 种 应 用 。 

Web mining (Web 挖掘 ) 通过 基于 Web 的 工具 
从 网 页 上 发 现 和 分 析 关 于 网 页 的 有 趣 并 且 有 


用 的 信息 。 

Web service (Web 服务 ) 使 软件 服务 和 联系 它 
们 的 分 布 式 应 用 程序 组 装 在 一 起 的 一 个 
架构 。 

Web structure mining (Web 结构 挖掘 ) ”从 包括 
网 络 文档 等 链接 上 开发 有 用 信息 。 

Web usage mining (Web 使 用 挖掘 ) ”提炼 通过 
登录 网 页 、 交 易 等 方式 产生 的 有 用 信息 。 
Weka 一 种 流行 的 、 免 费 的 、 开 源 的 机 器 学 习 
软件 套件 ， 在 怀 卡 托 大 学 用 JAVA 编写 而 开 

发 的 。 

Wiki (维基 百科 ) 一 个 服务 器 软件 ， 允 许 用 户 
使 用 任何 网 络 浏 览 器 在 网 站 上 自由 共 创 和 编 
辑 网 页 内 容 。 
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